A ideia dessa analise é trazer o que as pessoas estavam falando sobre o programa Fantástico, que é transmitido todos os domingo na tv Globo. Nessa análise eu utilizei algumas técnicas de mineração de texto e clusterização para extrair o máximo de informações do twitter sobre o programa. Essa análise foi feita no dia 07/06 e foram analisados mais de 8mil tweets com a hashtag fantástico

Pacotes utilizados

library(SnowballC)
library(rtweet)
library(wordcloud)
library(tm)
library(RColorBrewer)
library(cluster)   
library(fpc)
library(twitteR)

Conexão com o Twitter

Feita conexão com o Twitter através das API’s, a idéia foi trazer as palavras através da #Fantástico

setup_twitter_oauth(api_key, api_secret, access_token, access_token_secret)
[1] "Using direct authentication"

Captura dos tweets da rede social

fantastico_tweets <- search_tweets(
  "#fantastico", n = 15000, include_rts = FALSE,lang = "pt", charset="utf-8")

Selecionando a variável de trabalho

Como o objetivo da analise é trabalhar com os comentarios, vamos trazer o que as pessoas estão falando sobre o programa, então vamos trabalhar com a variavel text do banco

fantastico_text <- fantastico_tweets$text

Primeira visualização

Conseguimos obsevar que durante a semana a hashtag teve uma baixa frequência, mas durante e após o programa conseguimos ver um pico.

Limpeza dos textos

Assim como tratamos com dados numéricos, os dados em forma de texto também precisam de um tratamento para que sejam organizados.
Com o VCorpus, conseguimos remover as palavras irrelevantes, pontuações e fazer uma série de tratamentos

Nuvem de palavras

Nessa primeira nuvem conseguimos observar as palavras que foram mensionadas quando a Hashtag foi utilizada.
Em seguida farei alguns outros tratamentos e no quase no final uma outra nuvem de palavras.

formatacao <- brewer.pal(8,"Dark2")
wordcloud(fantastico_text_corpus,min.freq=2,max.words=100, random.order=T, colors=formatacao)

Criando uma matriz e tratando os termos

Nessa etapa eu transformei o Corpus em uma matriz e ajustei as palavras pela frequência. Conseguimos observar que temos 8983 documentos e 17169 termos distintos (Palavras), com isso conseguimos separar pela frequência, e podemos usar para um modelo de previsão utilizando textos se necessário. Conseguimos ver também a matriz separada por termos, essa seria uma organização inicial das palavras, essas palavras serão removidas na próxima linha de código

fantastico_dtm<- DocumentTermMatrix(fantastico_text_corpus)   
fantastico_dtm
<<DocumentTermMatrix (documents: 8983, terms: 17169)>>
Non-/sparse entries: 95448/154133679
Sparsity           : 100%
Maximal term length: 244
Weighting          : term frequency (tf)
fantastico_frequencia <- colSums(as.matrix(fantastico_dtm))   
length(fantastico_frequencia) 
[1] 17169
tail(fantastico_frequencia,10)
   zoeira      zoio     zomba    zombar      zona zoológico     zotto     zuada    zueira     zzzzz 
        1         1         1         1         2         1        13         1         1         1 

Nessa etapa, removi os termos que tinham frequência muito baixa e atrapalhavam a análise. Conseguimos observar que o Maximal term length era 244 e foi reduzido para 18

fantastico_dtms <- removeSparseTerms(fantastico_dtm, 0.98) 
fantastico_dtms
<<DocumentTermMatrix (documents: 8983, terms: 36)>>
Non-/sparse entries: 19489/303899
Sparsity           : 94%
Maximal term length: 18
Weighting          : term frequency (tf)

Na sequência eu recriei a frequência com os termos tratados com a quantidade de 36.

fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 
[1] 36
fantastico_frequencia <- sort(colSums(as.matrix(fantastico_frequencia)), decreasing=TRUE) 
fantastico_frequencia
[1] 20360

Matriz e Data.Frame

Convertendo a matriz em um data.frame

fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  

Visualização

Nessa etapa, vamos plotar alguns gráficos e continuar a limpeza das palavras. Selecionei que a palavra tivesse uma frequência de maior que 200 para aparecer no gráfico

Conseguimos observar que ainda existem muitas palavras que são irrelevantes para a análise, a seguir vamos fazer o tratamento dessas palavras

grafico   

Último tratamento

Removendo as palavras que sujam a analise e também as palavras que são óbvias

fantastico_text_corpus <- tm_map(fantastico_text_corpus, removeWords,c("contra","aqui","falar","fazer", "sobre", "ainda","bem","tudo","falar", "fantastico","fantástico","pra","ser","vai", "globo","agora","ter", "nada","domingoespetacular","be","ver","sobre","cara","ainda","bem","tudo","desse"))
fantastico_dtms <- removeSparseTerms(DocumentTermMatrix(fantastico_text_corpus) , 0.98) 
fantastico_dtms
<<DocumentTermMatrix (documents: 8983, terms: 16)>>
Non-/sparse entries: 4346/139382
Sparsity           : 97%
Maximal term length: 13
Weighting          : term frequency (tf)


Retornando para matriz

fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 
[1] 16

Visualizando a frenquência das palavras.

fantastico_frequencia <- sort(colSums(as.matrix(fantastico_dtms)), decreasing=TRUE) 
fantastico_frequencia
        gente    showdavida        brasil    reportagem       matéria           pai       pessoas 
          516           487           434           368           340           321           285 
        tadeu manifestações          deus       caboclo       polícia          hoje      encrenca 
          234           225           222           207           206           205           198 
       médico      programa 
          193           185 

Convertendo a matriz de frequência em dataframe e mostrando em formato de tabela.

fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  
fantastico_plot

Ultimas Visualizações

No gráfico abaixo, organizei as palavras com maior frequência depois de aplicado o tratamento de retirar as palavras irrelevantes. Conseguimos observar a diferença entre os dois gráficos de barra

grafico <- ggplot(subset(fantastico_plot, fantastico_frequencia>10), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x=element_text(angle=45, hjust=1)) +
  ggtitle("Grafico de barras com os termos mais frequentes") +
  labs(y="Frequencia", x = "Termos")
grafico   

Nuvem de palavras

Depois de todos os tratamentos, a nuvem de palavra fica muito mais limpa, e assim conseguimos ter uma melhore visualização dos termos mais frequentes.

wordcloud(names(fantastico_frequencia),fantastico_frequencia,min.freq=2,max.words=150, random.order=T, colors=formatacao)

Clustering - Dendograma

Aplicando removeSparseTerms para trazer um cluster mais limpo que fique de uma forma mais facil de visualizar.

fantastico_dtms2 <- removeSparseTerms(fantastico_dtms, 0.98)
fantastico_dtms2
<<DocumentTermMatrix (documents: 8983, terms: 16)>>
Non-/sparse entries: 4346/139382
Sparsity           : 97%
Maximal term length: 13
Weighting          : term frequency (tf)

A idéia do dendograma é trazer em qual cluster estão as palavras e qual a força de relacionamento entre elas
Ex:é a palavra principal é Gente, quais clusters derivam dessa palavra?

distancia <- dist(t(fantastico_dtms2), method="euclidian")   
dendograma <- hclust(d=distancia, method="complete")
plot(dendograma, hang=-1,main = "Dendograma Tweets",
     xlab = "Distancia",
     ylab = "Altura")
groups <- cutree(dendograma, k=4)
rect.hclust(dendograma, k=4, border="red")



Conclusão

Técnicas de análise de textos podem ser utilizadas de muitas formas, nessa análise eu separei apenas alguns tratamentos que podem ser feitos e como analisar o comportamento das pessoas. É de extrema importância estarmos monitorando as redes para definir quais estratégias devem ser tomadas e qual momento que se deve falar mais de determinado assunto. Muitas vezes temos a impressão de que as redes sociais estão dizendo uma coisa, mas elas podem estar dizendo outra completamente diferente, essa visão pode ser devido as nossas redes já estarem enviesadas e só conseguimos ver dentro da nossa bolha de relacionamento. Olhar as redes sociais de uma forma “Macro” e não micro ou segmentada, traz uma visão mais técnica e objetiva e uma ferramenta poderosa nas estratégias de uma empresa.
Agora me diz, o quão importante seria essa técnica na estratégia de marketing e vendas da sua empresa?


Blog: https://diascodes.medium.com/
Linkedin: https://www.linkedin.com/in/gabrieldiasdeoliveira/

---
title: "Text Mining - Mineração de texto utilizando dados do Twitter"
output: html_notebook
author: "Autor: Gabriel Dias"
---
<div style="text-align: justify">
*A ideia dessa analise é trazer o que as pessoas estavam falando sobre o programa Fantástico, que é transmitido todos os domingo na tv Globo. Nessa análise eu utilizei algumas técnicas de mineração de texto e clusterização para extrair o máximo de informações do twitter sobre o programa.*
*Essa análise foi feita no dia 07/06 e foram analisados mais de 8mil tweets com a hashtag fantástico*

### Pacotes utilizados
```{r}
library(SnowballC)
library(rtweet)
library(wordcloud)
library(tm)
library(RColorBrewer)
library(cluster)   
library(fpc)
library(twitteR)
```

```{r, echo=FALSE}
api_key = "z7ZKroaBwcTclrKc6oLPlhXZV"
api_secret = "g9syRte9eIz5Y1FmyyO0TZaN3WVFfur0NZdnWCEMMNGlUb14j5"
access_token = "1386499840692137984-WF2UdAo4zNbebfTvFfQChI5IBzweQk"
access_token_secret = "9oXqVHfD8PSgpLZwJxDSTwovbJFva314uWa5rbZy7K87K"
```

### Conexão com o Twitter
*Feita conexão com o Twitter através das API's, a idéia foi trazer as palavras através da #Fantástico* 

```{r}
setup_twitter_oauth(api_key, api_secret, access_token, access_token_secret)
```
*Captura dos tweets da rede social*
```{r, eval=FALSE}
fantastico_tweets <- search_tweets(
  "#fantastico", n = 15000, include_rts = FALSE,lang = "pt", charset="utf-8")
```

### Selecionando a variável de trabalho
*Como o objetivo da analise é trabalhar com os comentarios, vamos trazer o que as pessoas estão falando sobre o programa, então vamos trabalhar com a variavel text do banco*
```{r}
fantastico_text <- fantastico_tweets$text
```

### Primeira visualização
*Conseguimos obsevar que durante a semana a hashtag teve uma baixa frequência, mas durante e após o programa conseguimos ver um pico.* 
```{r, echo = FALSE}
fantastico_tweets %>%
  ts_plot("1 hours") +
  ggplot2::theme_minimal() +
  ggplot2::theme(plot.title = ggplot2::element_text(face = "bold")) +
  ggplot2::labs(
    x = NULL, y = NULL,
    title = "Frequencia de #Fantastico Twitter posts",
    subtitle = "Tweets a cada 1 hora",
    caption = "\nSource: Dados coletados da Twitter's REST API via rtweet"
  )
```
### Limpeza dos textos
*Assim como tratamos com dados numéricos, os dados em forma de texto também precisam de um tratamento para que sejam organizados.*<br>*Com o VCorpus, conseguimos remover as palavras irrelevantes, pontuações e fazer uma série de tratamentos*
```{r,echo=FALSE}
fantastico_text_corpus <- VCorpus(VectorSource(fantastico_text))
fantastico_text_corpus <- tm_map(fantastico_text_corpus, content_transformer(tolower))
fantastico_text_corpus <- tm_map(fantastico_text_corpus, removePunctuation)
fantastico_text_corpus <- tm_map(fantastico_text_corpus,removeWords, stopwords("pt"))
```

### Nuvem de palavras
*Nessa primeira nuvem conseguimos observar as palavras que foram mensionadas quando a Hashtag foi utilizada.* <br> *Em seguida farei alguns outros tratamentos e no quase no final uma outra nuvem de palavras.*
```{r}
formatacao <- brewer.pal(8,"Dark2")
wordcloud(fantastico_text_corpus,min.freq=2,max.words=100, random.order=T, colors=formatacao)
```

### Criando uma matriz e tratando os termos
*Nessa etapa eu transformei o Corpus em uma matriz e ajustei as palavras pela frequência. *
*Conseguimos observar que temos 8983 documentos e 17169 termos distintos (Palavras), com isso conseguimos separar pela frequência, e podemos usar para um modelo de previsão utilizando textos se necessário. *
*Conseguimos ver também a matriz separada por termos, essa seria uma organização inicial das palavras, essas palavras serão removidas na próxima linha de código*

```{r}
fantastico_dtm<- DocumentTermMatrix(fantastico_text_corpus)   
fantastico_dtm
```
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtm))   
length(fantastico_frequencia) 
tail(fantastico_frequencia,10)
```
*Nessa etapa, removi os termos que tinham frequência muito baixa e atrapalhavam a análise.* 
*Conseguimos observar que o* `Maximal term length era 244 e foi reduzido para 18` 
```{r}
fantastico_dtms <- removeSparseTerms(fantastico_dtm, 0.98) 
fantastico_dtms
```
*Na sequência eu recriei a frequência com os termos tratados com a quantidade de 36.  *
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 

fantastico_frequencia <- sort(colSums(as.matrix(fantastico_frequencia)), decreasing=TRUE) 
fantastico_frequencia
```
### Matriz e Data.Frame
*Convertendo a matriz em um data.frame*
```{r}
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  
```
### Visualização 
*Nessa etapa, vamos plotar alguns gráficos e continuar a limpeza das palavras.*
*Selecionei que a palavra tivesse uma frequência de maior que 200 para aparecer no gráfico*

```{r, include = FALSE}
grafico <- ggplot(subset(fantastico_plot , fantastico_frequencia>200), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x=element_text(angle=45, hjust=1)) +
  ggtitle("Grafico de barras com os termos mais frequentes") +
  labs(y="Frequencia", x = "Termos")
```
`Conseguimos observar que ainda existem muitas palavras que são irrelevantes para a análise,`
`a seguir vamos fazer o tratamento dessas palavras`
```{r}
grafico   
```


### Último tratamento 
*Removendo as palavras que sujam a analise e também as palavras que são óbvias*
```{r, }
fantastico_text_corpus <- tm_map(fantastico_text_corpus, removeWords,c("contra","aqui","falar","fazer", "sobre", "ainda","bem","tudo","falar", "fantastico","fantástico","pra","ser","vai", "globo","agora","ter", "nada","domingoespetacular","be","ver","sobre","cara","ainda","bem","tudo","desse"))
fantastico_dtms <- removeSparseTerms(DocumentTermMatrix(fantastico_text_corpus) , 0.98) 
fantastico_dtms
```
<br>
*Retornando para matriz*
```{r}
fantastico_frequencia <- colSums(as.matrix(fantastico_dtms))   
length(fantastico_frequencia) 
```

*Visualizando a frenquência das palavras.*
```{r}
fantastico_frequencia <- sort(colSums(as.matrix(fantastico_dtms)), decreasing=TRUE) 
fantastico_frequencia
```

*Convertendo a matriz de frequência em dataframe e mostrando em formato de tabela.*
```{r} 
fantastico_plot <- data.frame(word=names(fantastico_frequencia), freq=fantastico_frequencia)  
fantastico_plot
```

### Ultimas Visualizações 
*No gráfico abaixo, organizei as palavras com maior frequência depois de aplicado o tratamento de retirar as palavras irrelevantes. Conseguimos observar a diferença entre os dois gráficos de barra*
```{r}
grafico <- ggplot(subset(fantastico_plot, fantastico_frequencia>10), aes(x = reorder(word, -freq), y = freq)) +
  geom_bar(stat = "identity") + 
  theme(axis.text.x=element_text(angle=45, hjust=1)) +
  ggtitle("Grafico de barras com os termos mais frequentes") +
  labs(y="Frequencia", x = "Termos")
grafico   
```
### Nuvem de palavras

*Depois de todos os tratamentos, a nuvem de palavra fica muito mais limpa, e assim conseguimos ter uma melhore visualização dos termos mais frequentes.*   
```{r}
wordcloud(names(fantastico_frequencia),fantastico_frequencia,min.freq=2,max.words=150, random.order=T, colors=formatacao)
```

### Clustering - Dendograma
*Aplicando* `removeSparseTerms` *para trazer um cluster mais limpo que fique de uma forma mais facil de visualizar.* 
```{r}
fantastico_dtms2 <- removeSparseTerms(fantastico_dtms, 0.98)
fantastico_dtms2
```


*A idéia do dendograma é trazer em qual cluster estão as palavras e qual a força de relacionamento entre elas*<br>
*Ex:é a palavra principal é Gente, quais clusters derivam dessa palavra?* 

```{r} 
distancia <- dist(t(fantastico_dtms2), method="euclidian")   
dendograma <- hclust(d=distancia, method="complete")
plot(dendograma, hang=-1,main = "Dendograma Tweets",
     xlab = "Distancia",
     ylab = "Altura")
groups <- cutree(dendograma, k=4)
rect.hclust(dendograma, k=4, border="red")

```

<br><br>

### Conclusão
<div style="text-align: justify">
*Técnicas de análise de textos podem ser utilizadas de muitas formas, nessa análise eu separei apenas alguns tratamentos que podem ser feitos e como analisar o comportamento das pessoas. É de extrema importância estarmos monitorando as redes para definir quais estratégias devem ser tomadas e qual momento que se deve falar mais de determinado assunto. Muitas vezes temos a impressão de que as redes sociais estão dizendo uma coisa, mas elas podem estar dizendo outra completamente diferente, essa visão pode ser devido as nossas redes já estarem enviesadas e só conseguimos ver dentro da nossa bolha de relacionamento. Olhar as redes sociais de uma forma "Macro" e não micro ou segmentada, traz uma visão mais técnica e objetiva e uma ferramenta poderosa nas estratégias de uma empresa.*<br>
*Agora me diz, o quão importante seria essa técnica na estratégia de marketing e vendas da sua empresa? *

<br>
*Blog: https://diascodes.medium.com/* <br>
*Linkedin: https://www.linkedin.com/in/gabrieldiasdeoliveira/*<br>
