library(tm)
library(SnowballC)
library(wordcloud)
library(base)
Os dados referem-se aos focos de calor nos estados brasileiros de janeiro de 1998 a novembro de 2017, sendo as variáveis:
O objetivo do projeto é criar a a wordcloud dispondo de algumas variáveis. Para criar a wordcloud foram usadas apenas as variáveis Estado e Mês.
A seguir a leitura do arquivo:
setwd("~/Mestrado UFLA/4 Semestre/Analise e Visualizacao de Dados/Projeto/Projeto IV")
dados <- read.csv2("rf_incendiosflorestais_focoscalor_estados_1998-2017.csv")
dados1 <- dados[,2:3]
Primeiro passo, criar um corpus:
(corpus <- VCorpus(VectorSource(dados1)))
## <<VCorpus>>
## Metadata: corpus specific: 0, document level (indexed): 0
## Content: documents: 2
Resumo dos dados:
summary(corpus)
## Length Class Mode
## 1 2 PlainTextDocument list
## 2 2 PlainTextDocument list
Matriz de frequência:
(matriz_termos <- DocumentTermMatrix(corpus))
## <<DocumentTermMatrix (documents: 2, terms: 45)>>
## Non-/sparse entries: 46/44
## Sparsity : 49%
## Maximal term length: 10
## Weighting : term frequency (tf)
matriz <- TermDocumentMatrix(corpus)
matriz <- as.matrix(matriz)
palavras <- sort(rowSums(matriz),decreasing=TRUE)
palavras <- data.frame(word = names(palavras),freq=palavras)
palavras
## word freq
## janeiro janeiro 780
## rio rio 717
## abril abril 540
## agosto agosto 540
## fevereiro fevereiro 540
## julho julho 540
## junho junho 540
## maio maio 540
## março março 540
## novembro novembro 540
## outubro outubro 540
## setembro setembro 540
## dezembro dezembro 513
## grande grande 478
## grosso grosso 478
## mato mato 478
## sul sul 478
## alagoas alagoas 240
## acre acre 239
## amapá amapá 239
## amazonas amazonas 239
## bahia bahia 239
## catarina catarina 239
## ceará ceará 239
## distrito distrito 239
## espírito espírito 239
## federal federal 239
## gerais gerais 239
## goiás goiás 239
## maranhão maranhão 239
## minas minas 239
## norte norte 239
## pará pará 239
## paraíba paraíba 239
## paraná paraná 239
## paulo paulo 239
## pernambuco pernambuco 239
## piauí piauí 239
## rondônia rondônia 239
## roraima roraima 239
## santa santa 239
## santo santo 239
## são são 239
## sergipe sergipe 239
## tocantins tocantins 239
table(palavras$freq)
##
## 239 240 478 513 540 717 780
## 27 1 4 1 10 1 1
pal2 <- brewer.pal(7,"Greens")
max(palavras$freq)
## [1] 780
Finaliza-se com a criação do wordcloud.
wordcloud(palavras$word,
palavras$freq,
min.freq=1,
max.words=Inf,
random.order = FALSE,
rot.per=.1,
colors=pal2)
## Warning in wordcloud(palavras$word, palavras$freq, min.freq = 1, max.words
## = Inf, : tocantins could not be fit on page. It will not be plotted.