A ideia dessa analise é trazer o que as pessoas estavam falando sobre o programa Fantástico, que é transmitido todos os domingo na tv Globo. Nessa análise eu utilizei algumas técnicas de mineração de texto e clusterização para extrair o máximo de informações do twitter sobre o programa. Essa análise foi feita no dia 07/06 e foram analisados mais de 8mil tweets com a hashtag fantástico
Pacotes utilizados
library(SnowballC)
library(rtweet)
library(wordcloud)
library(tm)
library(RColorBrewer)
library(cluster)
library(fpc)
library(twitteR)
Selecionando a variável de trabalho
Como o objetivo da analise é trabalhar com os comentarios, vamos trazer o que as pessoas estão falando sobre o programa, então vamos trabalhar com a variavel text do banco
fantastico_text <- fantastico_tweets$text
Primeira visualização
Conseguimos obsevar que durante a semana a hashtag teve uma baixa frequência, mas durante e após o programa conseguimos ver um pico.

Limpeza dos textos
Assim como tratamos com dados numéricos, os dados em forma de texto também precisam de um tratamento para que sejam organizados.
Com o VCorpus, conseguimos remover as palavras irrelevantes, pontuações e fazer uma série de tratamentos
Nuvem de palavras
Nessa primeira nuvem conseguimos observar as palavras que foram mensionadas quando a Hashtag foi utilizada.
Em seguida farei alguns outros tratamentos e no quase no final uma outra nuvem de palavras.
formatacao <- brewer.pal(8,"Dark2")
wordcloud(fantastico_text_corpus,min.freq=2,max.words=100, random.order=T, colors=formatacao)

Criando uma matriz e tratando os termos
Nessa etapa eu transformei o Corpus em uma matriz e ajustei as palavras pela frequência. Conseguimos observar que temos 8983 documentos e 17169 termos distintos (Palavras), com isso conseguimos separar pela frequência, e podemos usar para um modelo de previsão utilizando textos se necessário. Conseguimos ver também a matriz separada por termos, essa seria uma organização inicial das palavras, essas palavras serão removidas na próxima linha de código
fantastico_dtm<- DocumentTermMatrix(fantastico_text_corpus)
fantastico_dtm
<<DocumentTermMatrix (documents: 8983, terms: 17169)>>
Non-/sparse entries: 95448/154133679
Sparsity : 100%
Maximal term length: 244
Weighting : term frequency (tf)
fantastico_frequencia <- colSums(as.matrix(fantastico_dtm))
length(fantastico_frequencia)
[1] 17169
tail(fantastico_frequencia,10)
zoeira zoio zomba zombar zona zoológico zotto zuada zueira zzzzz
1 1 1 1 2 1 13 1 1 1
Nessa etapa, removi os termos que tinham frequência muito baixa e atrapalhavam a análise. Conseguimos observar que o Maximal term length era 244 e foi reduzido para 18
fantastico_dtms <- removeSparseTerms(fantastico_dtm, 0.98)
fantastico_dtms
<<DocumentTermMatrix (documents: 8983, terms: 36)>>
Non-/sparse entries: 19489/303899
Sparsity : 94%
Maximal term length: 18
Weighting : term frequency (tf)
Na sequência eu recriei a frequência com os termos tratados com a quantidade de 36.
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))
length(fantastico_frequencia)
[1] 36
fantastico_frequencia <- sort(colSums(as.matrix(fantastico_frequencia)), decreasing=TRUE)
fantastico_frequencia
[1] 20360
Matriz e Data.Frame
Convertendo a matriz em um data.frame
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)
Visualização
Nessa etapa, vamos plotar alguns gráficos e continuar a limpeza das palavras. Selecionei que a palavra tivesse uma frequência de maior que 200 para aparecer no gráfico
Conseguimos observar que ainda existem muitas palavras que são irrelevantes para a análise, a seguir vamos fazer o tratamento dessas palavras
grafico

Último tratamento
Removendo as palavras que sujam a analise e também as palavras que são óbvias
fantastico_text_corpus <- tm_map(fantastico_text_corpus, removeWords,c("contra","aqui","falar","fazer", "sobre", "ainda","bem","tudo","falar", "fantastico","fantástico","pra","ser","vai", "globo","agora","ter", "nada","domingoespetacular","be","ver","sobre","cara","ainda","bem","tudo","desse"))
fantastico_dtms <- removeSparseTerms(DocumentTermMatrix(fantastico_text_corpus) , 0.98)
fantastico_dtms
<<DocumentTermMatrix (documents: 8983, terms: 16)>>
Non-/sparse entries: 4346/139382
Sparsity : 97%
Maximal term length: 13
Weighting : term frequency (tf)
Retornando para matriz
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))
length(fantastico_frequencia)
[1] 16
Visualizando a frenquência das palavras.
fantastico_frequencia <- sort(colSums(as.matrix(fantastico_dtms)), decreasing=TRUE)
fantastico_frequencia
gente showdavida brasil reportagem matéria pai pessoas
516 487 434 368 340 321 285
tadeu manifestações deus caboclo polícia hoje encrenca
234 225 222 207 206 205 198
médico programa
193 185
Convertendo a matriz de frequência em dataframe e mostrando em formato de tabela.
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)
fantastico_plot
Ultimas Visualizações
No gráfico abaixo, organizei as palavras com maior frequência depois de aplicado o tratamento de retirar as palavras irrelevantes. Conseguimos observar a diferença entre os dois gráficos de barra
grafico <- ggplot(subset(fantastico_plot, fantastico_frequencia>10), aes(x = reorder(word, -freq), y = freq)) +
geom_bar(stat = "identity") +
theme(axis.text.x=element_text(angle=45, hjust=1)) +
ggtitle("Grafico de barras com os termos mais frequentes") +
labs(y="Frequencia", x = "Termos")
grafico

Nuvem de palavras
Depois de todos os tratamentos, a nuvem de palavra fica muito mais limpa, e assim conseguimos ter uma melhore visualização dos termos mais frequentes.
wordcloud(names(fantastico_frequencia),fantastico_frequencia,min.freq=2,max.words=150, random.order=T, colors=formatacao)

Clustering - Dendograma
Aplicando removeSparseTerms para trazer um cluster mais limpo que fique de uma forma mais facil de visualizar.
fantastico_dtms2 <- removeSparseTerms(fantastico_dtms, 0.98)
fantastico_dtms2
<<DocumentTermMatrix (documents: 8983, terms: 16)>>
Non-/sparse entries: 4346/139382
Sparsity : 97%
Maximal term length: 13
Weighting : term frequency (tf)
A idéia do dendograma é trazer em qual cluster estão as palavras e qual a força de relacionamento entre elas
Ex:é a palavra principal é Gente, quais clusters derivam dessa palavra?
distancia <- dist(t(fantastico_dtms2), method="euclidian")
dendograma <- hclust(d=distancia, method="complete")
plot(dendograma, hang=-1,main = "Dendograma Tweets",
xlab = "Distancia",
ylab = "Altura")
groups <- cutree(dendograma, k=4)
rect.hclust(dendograma, k=4, border="red")

Conclusão
Técnicas de análise de textos podem ser utilizadas de muitas formas, nessa análise eu separei apenas alguns tratamentos que podem ser feitos e como analisar o comportamento das pessoas. É de extrema importância estarmos monitorando as redes para definir quais estratégias devem ser tomadas e qual momento que se deve falar mais de determinado assunto. Muitas vezes temos a impressão de que as redes sociais estão dizendo uma coisa, mas elas podem estar dizendo outra completamente diferente, essa visão pode ser devido as nossas redes já estarem enviesadas e só conseguimos ver dentro da nossa bolha de relacionamento. Olhar as redes sociais de uma forma “Macro” e não micro ou segmentada, traz uma visão mais técnica e objetiva e uma ferramenta poderosa nas estratégias de uma empresa.
Agora me diz, o quão importante seria essa técnica na estratégia de marketing e vendas da sua empresa?
Blog: https://diascodes.medium.com/
Linkedin: https://www.linkedin.com/in/gabrieldiasdeoliveira/
---
title: "Text Mining - Mineração de texto utilizando dados do Twitter"
output: html_notebook
author: "Autor: Gabriel Dias"
---
<div style="text-align: justify">
*A ideia dessa analise é trazer o que as pessoas estavam falando sobre o programa Fantástico, que é transmitido todos os domingo na tv Globo. Nessa análise eu utilizei algumas técnicas de mineração de texto e clusterização para extrair o máximo de informações do twitter sobre o programa.*
*Essa análise foi feita no dia 07/06 e foram analisados mais de 8mil tweets com a hashtag fantástico*

### Pacotes utilizados
```{r}
library(SnowballC)
library(rtweet)
library(wordcloud)
library(tm)
library(RColorBrewer)
library(cluster)   
library(fpc)
library(twitteR)
```

```{r, echo=FALSE}
api_key = "z7ZKroaBwcTclrKc6oLPlhXZV"
api_secret = "g9syRte9eIz5Y1FmyyO0TZaN3WVFfur0NZdnWCEMMNGlUb14j5"
access_token = "1386499840692137984-WF2UdAo4zNbebfTvFfQChI5IBzweQk"
access_token_secret = "9oXqVHfD8PSgpLZwJxDSTwovbJFva314uWa5rbZy7K87K"
```

### Conexão com o Twitter
*Feita conexão com o Twitter através das API's, a idéia foi trazer as palavras através da #Fantástico* 

```{r}
setup_twitter_oauth(api_key, api_secret, access_token, access_token_secret)
```
*Captura dos tweets da rede social*
```{r, eval=FALSE}
fantastico_tweets <- search_tweets(
  "#fantastico", n = 15000, include_rts = FALSE,lang = "pt", charset="utf-8")
```

### Selecionando a variável de trabalho
*Como o objetivo da analise é trabalhar com os comentarios, vamos trazer o que as pessoas estão falando sobre o programa, então vamos trabalhar com a variavel text do banco*
```{r}
fantastico_text <- fantastico_tweets$text
```

### Primeira visualização
*Conseguimos obsevar que durante a semana a hashtag teve uma baixa frequência, mas durante e após o programa conseguimos ver um pico.* 
```{r, echo = FALSE}
fantastico_tweets %>%
  ts_plot("1 hours") +
  ggplot2::theme_minimal() +
  ggplot2::theme(plot.title = ggplot2::element_text(face = "bold")) +
  ggplot2::labs(
    x = NULL, y = NULL,
    title = "Frequencia de #Fantastico Twitter posts",
    subtitle = "Tweets a cada 1 hora",
    caption = "\nSource: Dados coletados da Twitter's REST API via rtweet"
  )
```
### Limpeza dos textos
*Assim como tratamos com dados numéricos, os dados em forma de texto também precisam de um tratamento para que sejam organizados.*<br>*Com o VCorpus, conseguimos remover as palavras irrelevantes, pontuações e fazer uma série de tratamentos*
```{r,echo=FALSE}
fantastico_text_corpus <- VCorpus(VectorSource(fantastico_text))
fantastico_text_corpus <- tm_map(fantastico_text_corpus, content_transformer(tolower))
fantastico_text_corpus <- tm_map(fantastico_text_corpus, removePunctuation)
fantastico_text_corpus <- tm_map(fantastico_text_corpus,removeWords, stopwords("pt"))
```

### Nuvem de palavras
*Nessa primeira nuvem conseguimos observar as palavras que foram mensionadas quando a Hashtag foi utilizada.* <br> *Em seguida farei alguns outros tratamentos e no quase no final uma outra nuvem de palavras.*
```{r}
formatacao <- brewer.pal(8,"Dark2")
wordcloud(fantastico_text_corpus,min.freq=2,max.words=100, random.order=T, colors=formatacao)
```

### Criando uma matriz e tratando os termos
*Nessa etapa eu transformei o Corpus em uma matriz e ajustei as palavras pela frequência. *
*Conseguimos observar que temos 8983 documentos e 17169 termos distintos (Palavras), com isso conseguimos separar pela frequência, e podemos usar para um modelo de previsão utilizando textos se necessário. *
*Conseguimos ver também a matriz separada por termos, essa seria uma organização inicial das palavras, essas palavras serão removidas na próxima linha de código*

```{r}
fantastico_dtm<- DocumentTermMatrix(fantastico_text_corpus)   
fantastico_dtm
```
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtm))   
length(fantastico_frequencia) 
tail(fantastico_frequencia,10)
```
*Nessa etapa, removi os termos que tinham frequência muito baixa e atrapalhavam a análise.* 
*Conseguimos observar que o* `Maximal term length era 244 e foi reduzido para 18` 
```{r}
fantastico_dtms <- removeSparseTerms(fantastico_dtm, 0.98) 
fantastico_dtms
```
*Na sequência eu recriei a frequência com os termos tratados com a quantidade de 36.  *
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 

fantastico_frequencia <- sort(colSums(as.matrix(fantastico_frequencia)), decreasing=TRUE) 
fantastico_frequencia
```
### Matriz e Data.Frame
*Convertendo a matriz em um data.frame*
```{r}
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  
```
### Visualização 
*Nessa etapa, vamos plotar alguns gráficos e continuar a limpeza das palavras.*
*Selecionei que a palavra tivesse uma frequência de maior que 200 para aparecer no gráfico*

```{r, include = FALSE}
grafico <- ggplot(subset(fantastico_plot , fantastico_frequencia>200), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x=element_text(angle=45, hjust=1)) +
  ggtitle("Grafico de barras com os termos mais frequentes") +
  labs(y="Frequencia", x = "Termos")
```
`Conseguimos observar que ainda existem muitas palavras que são irrelevantes para a análise,`
`a seguir vamos fazer o tratamento dessas palavras`
```{r}
grafico   
```


### Último tratamento 
*Removendo as palavras que sujam a analise e também as palavras que são óbvias*
```{r, }
fantastico_text_corpus <- tm_map(fantastico_text_corpus, removeWords,c("contra","aqui","falar","fazer", "sobre", "ainda","bem","tudo","falar", "fantastico","fantástico","pra","ser","vai", "globo","agora","ter", "nada","domingoespetacular","be","ver","sobre","cara","ainda","bem","tudo","desse"))
fantastico_dtms <- removeSparseTerms(DocumentTermMatrix(fantastico_text_corpus) , 0.98) 
fantastico_dtms
```
<br>
*Retornando para matriz*
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 
```

*Visualizando a frenquência das palavras.*
```{r}
fantastico_frequencia <- sort(colSums(as.matrix(fantastico_dtms)), decreasing=TRUE) 
fantastico_frequencia
```

*Convertendo a matriz de frequência em dataframe e mostrando em formato de tabela.*
```{r} 
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  
fantastico_plot
```

### Ultimas Visualizações 
*No gráfico abaixo, organizei as palavras com maior frequência depois de aplicado o tratamento de retirar as palavras irrelevantes. Conseguimos observar a diferença entre os dois gráficos de barra*
```{r}
grafico <- ggplot(subset(fantastico_plot, fantastico_frequencia>10), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x=element_text(angle=45, hjust=1)) +
  ggtitle("Grafico de barras com os termos mais frequentes") +
  labs(y="Frequencia", x = "Termos")
grafico   
```
### Nuvem de palavras

*Depois de todos os tratamentos, a nuvem de palavra fica muito mais limpa, e assim conseguimos ter uma melhore visualização dos termos mais frequentes.*   
```{r}
wordcloud(names(fantastico_frequencia),fantastico_frequencia,min.freq=2,max.words=150, random.order=T, colors=formatacao)
```

### Clustering - Dendograma
*Aplicando* `removeSparseTerms` *para trazer um cluster mais limpo que fique de uma forma mais facil de visualizar.* 
```{r}
fantastico_dtms2 <- removeSparseTerms(fantastico_dtms, 0.98)
fantastico_dtms2
```


*A idéia do dendograma é trazer em qual cluster estão as palavras e qual a força de relacionamento entre elas*<br>
*Ex:é a palavra principal é Gente, quais clusters derivam dessa palavra?* 

```{r} 
distancia <- dist(t(fantastico_dtms2), method="euclidian")   
dendograma <- hclust(d=distancia, method="complete")
plot(dendograma, hang=-1,main = "Dendograma Tweets",
     xlab = "Distancia",
     ylab = "Altura")
groups <- cutree(dendograma, k=4)
rect.hclust(dendograma, k=4, border="red")

```

<br><br>

### Conclusão
<div style="text-align: justify">
*Técnicas de análise de textos podem ser utilizadas de muitas formas, nessa análise eu separei apenas alguns tratamentos que podem ser feitos e como analisar o comportamento das pessoas. É de extrema importância estarmos monitorando as redes para definir quais estratégias devem ser tomadas e qual momento que se deve falar mais de determinado assunto. Muitas vezes temos a impressão de que as redes sociais estão dizendo uma coisa, mas elas podem estar dizendo outra completamente diferente, essa visão pode ser devido as nossas redes já estarem enviesadas e só conseguimos ver dentro da nossa bolha de relacionamento. Olhar as redes sociais de uma forma "Macro" e não micro ou segmentada, traz uma visão mais técnica e objetiva e uma ferramenta poderosa nas estratégias de uma empresa.*<br>
*Agora me diz, o quão importante seria essa técnica na estratégia de marketing e vendas da sua empresa? *

<br>
*Blog: https://diascodes.medium.com/* <br>
*Linkedin: https://www.linkedin.com/in/gabrieldiasdeoliveira/*<br>
