Ontem recebi um e-mail da Pró-Reitora de Extensão e Cultura com a lista de projetos de extensão universitária da Unirio que devem participar da Semana de Integração Acadêmica - SIA em 2017. Neste documento também tinha as respostas da pergunta:
Esse documento é rico e pode ser analisado através do Linguagem R. Apresento abaixo um exemplo de resposta de um participante da Unirio.
“O binômio de Newton é tão belo como a Vênus de Milo. O que há é pouca gente para dar por isso.” (Álvaro de Campos, através de Fernando Pessoa).
Para a análise desssas respostas vamos utilizar uma nuvem de palavras. Para saber mais sobre a nuvem de palavras, clique aqui http://www.arede.inf.br/crie-a-sua-nuvem-de-palavras/
#fileName <- "C:/Users/.../ondeestaamatematica.txt"
banco<-readChar(fileName, file.info(fileName)$size)
banco<-str_trim(banco)
#head(banco)
banco2<-str_split(banco, boundary("word"))
#head(banco2)
O detalhamento sobre o uso da nuvem de palavras no R pode ser encontrado aqui. http://www.estatisticacomr.uff.br/?p=322
A única diferença foi a utilização do
iconv
para manter todos os caracteres latinos (como a cedilha e o til) :)
auxCorpus <- Corpus(VectorSource(banco2))
auxCorpus <- tm_map(auxCorpus, PlainTextDocument)
#Então, vamos remover toda a pontuação e palavras irrelevantes. Stopwords são comumente usadas no português, como: eu, meu e etc.
auxCorpus <- tm_map(auxCorpus, removePunctuation)
#auxCorpus <- tm_map(auxCorpus, removeWords, stopwords('pt'))
auxCorpus <- iconv(tm_map(auxCorpus, removeWords, stopwords('pt')), "latin1", "latin2", "")
Após a correção dos caracteres, finalmente, foi construída a Nuvem de palavras. Coloquei em um fundo preto.
par(bg="black")
wordcloud(auxCorpus,max.words=100,colors=c("white","#eaef88","#e1e85a","#e1e85a"))
Tudo isso em uma hora e meia. Nunca foi tão fácil montar uma nuvem de palavras no R. Use R!