library(tm)
library(SnowballC)
library(wordcloud)
library(base)

Os dados referem-se aos focos de calor nos estados brasileiros de janeiro de 1998 a novembro de 2017, sendo as variáveis:

O objetivo do projeto é criar a a wordcloud dispondo de algumas variáveis. Para criar a wordcloud foram usadas apenas as variáveis Estado e Mês.

A seguir a leitura do arquivo:

setwd("~/Mestrado UFLA/4 Semestre/Analise e Visualizacao de Dados/Projeto/Projeto IV")
dados <- read.csv2("rf_incendiosflorestais_focoscalor_estados_1998-2017.csv")
dados1 <- dados[,2:3] 

Primeiro passo, criar um corpus:

(corpus <- VCorpus(VectorSource(dados1)))
## <<VCorpus>>
## Metadata:  corpus specific: 0, document level (indexed): 0
## Content:  documents: 2

Resumo dos dados:

summary(corpus)
##   Length Class             Mode
## 1 2      PlainTextDocument list
## 2 2      PlainTextDocument list

Matriz de frequência:

(matriz_termos <- DocumentTermMatrix(corpus))
## <<DocumentTermMatrix (documents: 2, terms: 45)>>
## Non-/sparse entries: 46/44
## Sparsity           : 49%
## Maximal term length: 10
## Weighting          : term frequency (tf)
matriz <- TermDocumentMatrix(corpus)

matriz <- as.matrix(matriz)
palavras <- sort(rowSums(matriz),decreasing=TRUE)
palavras <- data.frame(word = names(palavras),freq=palavras)
palavras
##                  word freq
## janeiro       janeiro  780
## rio               rio  717
## abril           abril  540
## agosto         agosto  540
## fevereiro   fevereiro  540
## julho           julho  540
## junho           junho  540
## maio             maio  540
## março           março  540
## novembro     novembro  540
## outubro       outubro  540
## setembro     setembro  540
## dezembro     dezembro  513
## grande         grande  478
## grosso         grosso  478
## mato             mato  478
## sul               sul  478
## alagoas       alagoas  240
## acre             acre  239
## amapá           amapá  239
## amazonas     amazonas  239
## bahia           bahia  239
## catarina     catarina  239
## ceará           ceará  239
## distrito     distrito  239
## espírito     espírito  239
## federal       federal  239
## gerais         gerais  239
## goiás           goiás  239
## maranhão     maranhão  239
## minas           minas  239
## norte           norte  239
## pará             pará  239
## paraíba       paraíba  239
## paraná         paraná  239
## paulo           paulo  239
## pernambuco pernambuco  239
## piauí           piauí  239
## rondônia     rondônia  239
## roraima       roraima  239
## santa           santa  239
## santo           santo  239
## são               são  239
## sergipe       sergipe  239
## tocantins   tocantins  239
table(palavras$freq)
## 
## 239 240 478 513 540 717 780 
##  27   1   4   1  10   1   1
pal2 <- brewer.pal(7,"Greens")
max(palavras$freq)
## [1] 780

Finaliza-se com a criação do wordcloud.

wordcloud(palavras$word,
          palavras$freq, 
          min.freq=1,
          max.words=Inf,
          random.order = FALSE,
          rot.per=.1, 
          colors=pal2)
## Warning in wordcloud(palavras$word, palavras$freq, min.freq = 1, max.words
## = Inf, : tocantins could not be fit on page. It will not be plotted.