If you want, you can built a cloud-based text analytics solution with many powerful features, including an Active Learning machine classification engine. Provides valuable insights about employees, customers, products, news, and citizens.
But, first you need to learn to built corpus from those webpages you are interested, and perform basic analysis on the corpus.
library(RCurl)
## Loading required package: bitops
library(XML)
library(tm)
## Loading required package: NLP
library(wordcloud)
## Loading required package: RColorBrewer
library(SnowballC)
library(RColorBrewer)
library(ggplot2)
##
## Attaching package: 'ggplot2'
## The following object is masked from 'package:NLP':
##
## annotate
html <- getURL("https://www.reuters.com/article/us-taiwan-power-outages-idUSKCN1AV1SQ", followlocation = TRUE)
doc = htmlParse(html, asText=TRUE)
plain.text <- xpathSApply(doc, "//p", xmlValue)
write.table(plain.text, "D:/R_Files/corpus/txt/d1.txt", sep="\t")
html <- getURL("http://news.abs-cbn.com/overseas/08/15/17/taiwan-urges-restraint-after-china-plane-enters-defense-zone", followlocation = TRUE)
doc = htmlParse(html, asText=TRUE)
plain.text <- xpathSApply(doc, "//p", xmlValue)
write.table(plain.text, "D:/R_Files/corpus/txt/d2.txt", sep="\t")
html <- getURL("http://www.heritage.org/event/the-future-taiwan-relations-the-new-administration", followlocation = TRUE)
doc = htmlParse(html, asText=TRUE)
plain.text <- xpathSApply(doc, "//p", xmlValue)
write.table(plain.text, "D:/R_Files/corpus/txt/d3.txt", sep="\t")
# make sure your text file location align with your R file location
setwd("D:/R_files")
cname <- file.path(".", "corpus", "txt")
length(dir(cname))
## [1] 3
dir(cname)
## [1] "d1.txt" "d2.txt" "d3.txt"
docs <- Corpus(DirSource(cname))
docs
## <<SimpleCorpus>>
## Metadata: corpus specific: 1, document level (indexed): 0
## Content: documents: 3
class(docs)
## [1] "SimpleCorpus" "Corpus"
class(docs[[1]])
## [1] "PlainTextDocument" "TextDocument"
summary(docs)
## Length Class Mode
## d1.txt 2 PlainTextDocument list
## d2.txt 2 PlainTextDocument list
## d3.txt 2 PlainTextDocument list
toSpace <- content_transformer(function(x, pattern) gsub(pattern, " ", x))
docs <- tm_map(docs, toSpace, "/|@|\\|")
inspect(docs[3])
## <<SimpleCorpus>>
## Metadata: corpus specific: 1, document level (indexed): 0
## Content: documents: 1
##
## d3.txt
## "x"\n"1"\t"Frequently Searched"\n"2"\t"Top Issues"\n"3"\t"Domestic Policy"\n"4"\t"Political Thought"\n"5"\t"International"\n"6"\t"Government Spending"\n"7"\t"Energy & Environment"\n"8"\t"Legal and Judicial"\n"9"\t"Infrastructure & Technology"\n"10"\t"National Security"\n"11"\t"Culture"\n"12"\t"Health Care"\n"13"\t"Poverty & Welfare"\n"14"\t"Economy"\n"15"\t"Co-Hosted by the Taiwan Benevolent Association of America and the Institute for Taiwan-America Relations"\n"16"\t"Friday, Aug 11, 2017"\n"17"\t"1:30 pm - 5:15 pm"\n"18"\t"The Heritage Foundation"\n"19"\t"12:30 p.m. "\n"20"\t"Informal Networking Lunch <U+0096> Light Sandwich Buffet"\n"21"\t" "\n"22"\t"1:30 p.m."\n"23"\t"Opening Remarks"\n"24"\t"Lee Edwards, Distinguished Fellow in Conservative Thought, The Heritage Foundation"\n"25"\t"Wei Wang, President, Taiwan Benevolent Association of America"\n"26"\t"Yeni Wong, President, Institute for Taiwan-America Studies"\n"27"\t" "\n"28"\t"Keynote Address"\n"29"\t"Lyu-shun Shen, Former Representative, Taiwan Economic and Cultural Representative Office, Washington, D.C. "\n"30"\t"2:15 p.m."\n"31"\t"Session 1: Cross-Strait Relations and the U.S."\n"32"\t"Chung-Chian Teng, Professor, Department of Diplomacy, National Chengchi University, Taiwan"\n"33"\t"Patrick M. Cronin, Senior Advisor and Senior Director, Asia-Pacific Security Program, Center for a New American Security"\n"34"\t"Russell Hsiao, Executive Director, Global Taiwan Institute "\n"35"\t"Scott Kastner, Professor, Department of Government and Politics, University of Maryland "\n"36"\t"Dean Cheng, Senior Research Fellow, Asian Studies Center, The Heritage Foundation <U+0096> Moderator "\n"37"\t" "\n"38"\t"4:00 p.m."\n"39"\t"Session 2: Future of Economic Relations between the U.S. and Taiwan"\n"40"\t"Riley Walters, Research Associate, Douglas and Sarah Allison Center for Foreign Policy, The Heritage Foundation"\n"41"\t"Scott Kennedy, Director, Project on Chinese Business and Political Economy, CSIS"\n"42"\t"Vincent Wang, Dean and Professor of Politics, School of Humanities and Sciences, Ithaca College"\n"43"\t"Yinglee Tseng, Managing Director of TBAA-GDC <U+0096> Moderator "\n"44"\t""\n"45"\t"REPORT19 min read"\n"46"\t"REPORT6 min read"\n"47"\t"COMMENTARY3 min read"\n"48"\t"Subscribe to email updates"\n"49"\t"Thank you for signing up."\n"50"\t"Follow us"\n"51"\t"\n © 2017, The Heritage Foundation\n "
docs <- tm_map(docs, content_transformer(tolower))
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
# docs <- tm_map(docs, stemDocument)
dtm <- DocumentTermMatrix(docs)
dtm
## <<DocumentTermMatrix (documents: 3, terms: 622)>>
## Non-/sparse entries: 660/1206
## Sparsity : 65%
## Maximal term length: 31
## Weighting : term frequency (tf)
class(dtm)
## [1] "DocumentTermMatrix" "simple_triplet_matrix"
dim(dtm)
## [1] 3 622
tdm <- TermDocumentMatrix(docs)
tdm
## <<TermDocumentMatrix (terms: 622, documents: 3)>>
## Non-/sparse entries: 660/1206
## Sparsity : 65%
## Maximal term length: 31
## Weighting : term frequency (tf)
In this simplified case: N = (281,397,188) M = 588 D = 3 b needed to be estimated
freq <- rowSums(as.matrix(tdm))
length(freq)
## [1] 622
ord <- order(freq)
freq[head(ord)]
## additional administrative affecting afternoon although
## 1 1 1 1 1
## amid
## 1
freq[tail(ord)]
## air chinese power said august taiwan
## 6 7 12 13 15 19
head(table(freq), 15)
## freq
## 1 2 3 4 5 6 7 12 13 15 19
## 483 92 20 12 8 2 1 1 1 1 1
tail(table(freq), 15)
## freq
## 1 2 3 4 5 6 7 12 13 15 19
## 483 92 20 12 8 2 1 1 1 1 1
# or as dataframe(t)
df <- as.data.frame(as.matrix(tdm))
df$total <- rowSums(df)
df$word<-rownames(df)
colnames(df) <- c("doc1","doc2","doc3","total","word")
df <-df[order(-df$total),]
head(df,20)
## doc1 doc2 doc3 total word
## taiwan 7 6 6 19 taiwan
## august 0 15 0 15 august
## said 10 3 0 13 said
## power 12 0 0 12 power
## chinese 0 6 1 7 chinese
## taiwans 2 4 0 6 taiwans
## air 0 6 0 6 air
## blackout 5 0 0 5 blackout
## government 2 1 2 5 government
## president 2 1 2 5 president
## aircraft 0 5 0 5 aircraft
## defense 0 5 0 5 defense
## relations 0 2 3 5 relations
## foundation 0 0 5 5 foundation
## heritage 0 0 5 5 heritage
## also 1 3 0 4 also
## caused 3 1 0 4 caused
## min 1 0 3 4 min
## read 1 0 3 4 read
## security 1 0 3 4 security
newdata <-df[order(-df$total),]
head(newdata)
## doc1 doc2 doc3 total word
## taiwan 7 6 6 19 taiwan
## august 0 15 0 15 august
## said 10 3 0 13 said
## power 12 0 0 12 power
## chinese 0 6 1 7 chinese
## taiwans 2 4 0 6 taiwans
d <- newdata
df <- as.data.frame(cbind(d[1:21,]$word,as.numeric(d[1:21,]$total)))
colnames(df) <- c("Word","Frequency")
ggplot(df, aes(x=Word, y=Frequency)) +
geom_bar(stat="identity", fill="lightgreen", color="grey50")+
coord_flip()+
ggtitle("Bag-of-Words, document as multinomial distribution of words")
# we can world cloud the bag-of-words
dtm <- TermDocumentMatrix(docs)
m <- as.matrix(dtm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 10)
## word freq
## taiwan taiwan 19
## august august 15
## said said 13
## power power 12
## chinese chinese 7
## taiwans taiwans 6
## air air 6
## blackout blackout 5
## government government 5
## president president 5
wordcloud(words = d$word, freq = d$freq, min.freq = 1,
max.words=200, random.order=FALSE, rot.per=0.35,
colors=brewer.pal(8, "Dark2"))
# save the tdm matrix
m <- as.matrix(tdm)
dim(m)
## [1] 622 3
write.csv(m, file="D:/R_Files/corpus/tdm.csv")
m <- as.matrix(tdm)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
head(d, 30)
## word freq
## taiwan taiwan 19
## august august 15
## said said 13
## power power 12
## chinese chinese 7
## taiwans taiwans 6
## air air 6
## blackout blackout 5
## government government 5
## president president 5
## aircraft aircraft 5
## defense defense 5
## relations relations 5
## foundation foundation 5
## heritage heritage 5
## also also 4
## caused caused 4
## min min 4
## read read 4
## security security 4
## since since 4
## spokesman spokesman 4
## beijing beijing 4
## china china 4
## near near 4
## zone zone 4
## director director 4
## corp corp 3
## island island 3
## national national 3
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
wordMatrix$word<-rownames(wordMatrix)
colnames(wordMatrix) <- c("doc1","doc2","doc3","word")
newdata <-wordMatrix[order(-wordMatrix$doc1),]
head(newdata)
## doc1 doc2 doc3 word NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 5 1
## d2.txt 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 3 1 1 1 1 1 1 1 1 1 1 1 2 1 3 1 1 2 1 1
## d2.txt 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 2 1 1 1 1 2 2 1 1 2 1 1 2 1 2 1
## d2.txt 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 2 1 1 1 1 1 1
## d2.txt 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 2 1 1 1 1 1 1 1 1 3 3 1 1 1 1 2 1 2 12 1 2
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## d3.txt 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## d3.txt 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 10 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## d2.txt 0 0 3 0 0 0 0 0 1 0 0 0 3 0 0 2 0 0 0 0 0 0
## d3.txt 0 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 2 2 1 1 7 2 2 1 1 1 1 1 1 1 1 1 2 1
## d2.txt 0 0 0 0 0 0 0 2 6 4 0 0 0 0 0 0 0 0 0 0 1 0
## d3.txt 0 0 0 0 0 0 0 0 6 0 0 0 0 0 1 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 3 1 2 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 5 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 15 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 2 1 1 3 1 1 4 1 6 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 1 1 1 1 3 1 1 5 1 1 1 1 1 2 1 2 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 2
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 3
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 3 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 2 1 1 1 1
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 1 1 1 2 1 1 1 1 2 2 1 1 1 3 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 1 1 2 2 1 4 1 1 1 2 2 1 1 1 1 1 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 5 1 1 1 1 1 5 1 1 1 3 1 1 1 1 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 1 1 1 2 2 2 1 3 1 1 1 2 2 2 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 3 2 1 1 2 1 2 1 1 1 2 1 2 1 1
## NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 d1.txt
## d2.txt 0 0 0 0 0 0 0 0 d2.txt
## d3.txt 1 2 1 1 1 1 1 1 d3.txt
# document 1
newdata <-wordMatrix[order(-wordMatrix$doc1),]
head(newdata)
## doc1 doc2 doc3 word NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 5 1
## d2.txt 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 3 1 1 1 1 1 1 1 1 1 1 1 2 1 3 1 1 2 1 1
## d2.txt 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 2 1 1 1 1 2 2 1 1 2 1 1 2 1 2 1
## d2.txt 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 2 1 1 1 1 1 1
## d2.txt 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 2 1 1 1 1 1 1 1 1 3 3 1 1 1 1 2 1 2 12 1 2
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## d3.txt 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## d3.txt 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 10 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## d2.txt 0 0 3 0 0 0 0 0 1 0 0 0 3 0 0 2 0 0 0 0 0 0
## d3.txt 0 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 2 2 1 1 7 2 2 1 1 1 1 1 1 1 1 1 2 1
## d2.txt 0 0 0 0 0 0 0 2 6 4 0 0 0 0 0 0 0 0 0 0 1 0
## d3.txt 0 0 0 0 0 0 0 0 6 0 0 0 0 0 1 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 3 1 2 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 5 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 15 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 2 1 1 3 1 1 4 1 6 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 1 1 1 1 3 1 1 5 1 1 1 1 1 2 1 2 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 2
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 3
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 3 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 2 1 1 1 1
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 1 1 1 2 1 1 1 1 2 2 1 1 1 3 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 1 1 2 2 1 4 1 1 1 2 2 1 1 1 1 1 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 5 1 1 1 1 1 5 1 1 1 3 1 1 1 1 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 1 1 1 2 2 2 1 3 1 1 1 2 2 2 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 3 2 1 1 2 1 2 1 1 1 2 1 2 1 1
## NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 d1.txt
## d2.txt 0 0 0 0 0 0 0 0 d2.txt
## d3.txt 1 2 1 1 1 1 1 1 d3.txt
d <- newdata
df <- as.data.frame(cbind(d[1:10,]$word,as.numeric(d[1:10,]$doc1)))
colnames(df)<- c("Word","Frequency")
wordcloud(words = wordMatrix$word, freq = wordMatrix$doc1, min.freq = 3,colors=brewer.pal(8, "Dark2"))
df <- as.data.frame(cbind(d[1:10,]$word,as.numeric(d[1:10,]$doc2)))
colnames(df)<- c("Word","Frequency")
wordcloud(words = wordMatrix$word, freq = wordMatrix$doc2, min.freq = 3,colors=brewer.pal(8, "Dark2"))
df <- as.data.frame(cbind(d[1:10,]$word,as.numeric(d[1:10,]$doc3)))
colnames(df)<- c("Word","Frequency")
wordcloud(words = wordMatrix$word, freq = wordMatrix$doc3, min.freq = 3,colors=brewer.pal(8, "Dark2"))
simple way to estimate the topics
wordMatrix = as.data.frame( t(as.matrix( dtm )) )
wordMatrix$word<-rownames(wordMatrix)
colnames(wordMatrix) <- c("doc1","doc2","doc3","word")
# document 1
newdata <-wordMatrix[order(-wordMatrix$doc1),]
head(newdata)
## doc1 doc2 doc3 word NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 5 1
## d2.txt 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 3 1 1 1 1 1 1 1 1 1 1 1 2 1 3 1 1 2 1 1
## d2.txt 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 2 1 1 1 1 2 2 1 1 2 1 1 2 1 2 1
## d2.txt 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 2 1 1 1 1 1 1
## d2.txt 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 2 1 1 1 1 1 1 1 1 3 3 1 1 1 1 2 1 2 12 1 2
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## d3.txt 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## d3.txt 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 10 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## d2.txt 0 0 3 0 0 0 0 0 1 0 0 0 3 0 0 2 0 0 0 0 0 0
## d3.txt 0 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 2 2 1 1 7 2 2 1 1 1 1 1 1 1 1 1 2 1
## d2.txt 0 0 0 0 0 0 0 2 6 4 0 0 0 0 0 0 0 0 0 0 1 0
## d3.txt 0 0 0 0 0 0 0 0 6 0 0 0 0 0 1 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 3 1 2 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 5 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 15 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 2 1 1 3 1 1 4 1 6 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 1 1 1 1 3 1 1 5 1 1 1 1 1 2 1 2 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 2
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 3
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 3 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 2 1 1 1 1
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 1 1 1 2 1 1 1 1 2 2 1 1 1 3 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 1 1 2 2 1 4 1 1 1 2 2 1 1 1 1 1 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 5 1 1 1 1 1 5 1 1 1 3 1 1 1 1 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 1 1 1 2 2 2 1 3 1 1 1 2 2 2 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 3 2 1 1 2 1 2 1 1 1 2 1 2 1 1
## NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 d1.txt
## d2.txt 0 0 0 0 0 0 0 0 d2.txt
## d3.txt 1 2 1 1 1 1 1 1 d3.txt
d <- newdata
df <- as.data.frame(cbind(d[1:10,]$word,as.numeric(d[1:10,]$doc1)))
colnames(df)<- c("Word","Frequency")
ggplot(df, aes(x=Word, y=Frequency)) +
geom_bar(stat="identity", fill="lightgreen", color="grey50")+
coord_flip()+
ggtitle("Document 1")
## Warning: Removed 7 rows containing missing values (position_stack).
# document 2
newdata <-wordMatrix[order(-wordMatrix$doc2),]
head(newdata)
## doc1 doc2 doc3 word NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 5 1
## d2.txt 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 3 1 1 1 1 1 1 1 1 1 1 1 2 1 3 1 1 2 1 1
## d2.txt 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 2 1 1 1 1 2 2 1 1 2 1 1 2 1 2 1
## d2.txt 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 2 1 1 1 1 1 1
## d2.txt 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 2 1 1 1 1 1 1 1 1 3 3 1 1 1 1 2 1 2 12 1 2
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## d3.txt 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## d3.txt 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 10 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## d2.txt 0 0 3 0 0 0 0 0 1 0 0 0 3 0 0 2 0 0 0 0 0 0
## d3.txt 0 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 2 2 1 1 7 2 2 1 1 1 1 1 1 1 1 1 2 1
## d2.txt 0 0 0 0 0 0 0 2 6 4 0 0 0 0 0 0 0 0 0 0 1 0
## d3.txt 0 0 0 0 0 0 0 0 6 0 0 0 0 0 1 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 3 1 2 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 5 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 15 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 2 1 1 3 1 1 4 1 6 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 1 1 1 1 3 1 1 5 1 1 1 1 1 2 1 2 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 2
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 3
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 3 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 2 1 1 1 1
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 1 1 1 2 1 1 1 1 2 2 1 1 1 3 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 1 1 2 2 1 4 1 1 1 2 2 1 1 1 1 1 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 5 1 1 1 1 1 5 1 1 1 3 1 1 1 1 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 1 1 1 2 2 2 1 3 1 1 1 2 2 2 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 3 2 1 1 2 1 2 1 1 1 2 1 2 1 1
## NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 d1.txt
## d2.txt 0 0 0 0 0 0 0 0 d2.txt
## d3.txt 1 2 1 1 1 1 1 1 d3.txt
d <- newdata
df <- as.data.frame(cbind(d[1:15,]$word,as.numeric(d[1:15,]$doc2)))
colnames(df)<- c("Word","Frequency")
ggplot(df, aes(x=Word, y=Frequency)) +
geom_bar(stat="identity", fill="lightgreen", color="grey50")+
coord_flip()+
ggtitle("Document 2")
## Warning: Removed 12 rows containing missing values (position_stack).
# document 3
newdata <-wordMatrix[order(-wordMatrix$doc3),]
head(newdata)
## doc1 doc2 doc3 word NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 5 1
## d2.txt 0 0 1 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 3 1 1 1 1 1 1 1 1 1 1 1 2 1 3 1 1 2 1 1
## d2.txt 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 2 1 1 2 1 1 1 1 2 2 1 1 2 1 1 2 1 2 1
## d2.txt 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
## d3.txt 0 0 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 1 1 1 1 2 2 1 2 2 1 1 2 1 1 1 1 1 1
## d2.txt 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 2 1 1 1 1 1 1 1 1 3 3 1 1 1 1 2 1 2 12 1 2
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
## d3.txt 0 0 0 0 2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 2 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 2 1 1
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## d3.txt 0 0 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 10 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 2 1 1
## d2.txt 0 0 3 0 0 0 0 0 1 0 0 0 3 0 0 2 0 0 0 0 0 0
## d3.txt 0 0 0 3 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 1 1 2 2 1 1 7 2 2 1 1 1 1 1 1 1 1 1 2 1
## d2.txt 0 0 0 0 0 0 0 2 6 4 0 0 0 0 0 0 0 0 0 0 1 0
## d3.txt 0 0 0 0 0 0 0 0 6 0 0 0 0 0 1 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 1 1 3 1 2 2 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 0 0 0 0 0 0 0 1 1 1 1 1 1 1 6 5 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 15 1 1 1 1 1 1 1 1 4 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 2 1 1 3 1 1 4 1 6 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 1 1 1 1 3 1 1 5 1 1 1 1 1 2 1 2 1
## d3.txt 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 3 1 2
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 3 1 1 1 1 1 1 1 1 1 4 1 1 1 1 2 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 2 2 2 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 2 2 1 1 1 3
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 2 2 2 1 1 2 1 1 1 2 1 1 1 1 1 3 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1
## d3.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 1 1 1 2 2 1 1 1 1 1 2 1 1 1 2 1 1 1 1
## d3.txt 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 1 1 1 4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 0 0 0 0 1 1 1 2 1 1 1 1 2 2 1 1 1 3 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 1 1 2 2 1 4 1 1 1 2 2 1 1 1 1 1 2
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 5 1 1 1 1 1 5 1 1 1 3 1 1 1 1 1 1 1 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 1 1 1 2 2 2 1 3 1 1 1 2 2 2 1
## NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d2.txt 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
## d3.txt 1 1 1 1 1 2 1 3 2 1 1 2 1 2 1 1 1 2 1 2 1 1
## NA NA NA NA NA NA NA NA NA
## d1.txt 0 0 0 0 0 0 0 0 d1.txt
## d2.txt 0 0 0 0 0 0 0 0 d2.txt
## d3.txt 1 2 1 1 1 1 1 1 d3.txt
d <- newdata
df <- as.data.frame(cbind(d[1:15,]$word,as.numeric(d[1:15,]$doc3)))
colnames(df)<- c("Word","Frequency")
ggplot(df, aes(x=Word, y=Frequency)) +
geom_bar(stat="identity", fill="lightgreen", color="grey50")+
coord_flip()+
ggtitle("Document 3")
## Warning: Removed 12 rows containing missing values (position_stack).
print("Topic of Document 1 :Taiwan suffers massive power cut, affecting millions of households")
## [1] "Topic of Document 1 :Taiwan suffers massive power cut, affecting millions of households"
print("Topic of Document 2 :Taiwan urges restraint after China plane enters defense zone")
## [1] "Topic of Document 2 :Taiwan urges restraint after China plane enters defense zone"
print("Topic of Document 3 :Agenda of The Heritage Foundation")
## [1] "Topic of Document 3 :Agenda of The Heritage Foundation"