As questões ambientais ocupam atualmente o centro das atenções na mídia e de muitas pessoas. No Brasil, mais recentemente, diferentes crises ambientais botaram o Estado a prova e demandaram ações que reduzissem seus danos. Diante das ações do governo, diferentes narrativas surgem, buscando explicar, justificar ou atacar as ações postas em prática.
O governo e seus agentes, apoiadores, opositores e críticos defendem visões diferentes, ora apontando sua falta de ação ou sua pró-atividade. Há quem relativize as consequências dessas crises e há àqueles que recorrem ao alarmismo como forma de comunicar suas preocupações.
As mídias sociais ocupam um papel extremamente importante na comunicação e, seja o governo e instituições, com seus perfis oficiais, sejam artistas e personalidades ou seja a população de modo geral, é possível usá-las como termômetro social e como meio de entrar em contato com essas diferentes narrativas.
Na análise atual, os perfis foram escolhidos por conveniência. Em instâncias futuras, planeja-se que os perfis sejam escolhidos de maneira mais sistemática. Isso pode ser feito através de indicação de especialistas, recomendação de usuários e revisão de literatura especializada.
Os dados foram coletados utilizando-se da linguagem R (R Core Team, 2018) e do pacote rtweet (Kearney, 2018), de modo que podemos fazer requisições automáticas dos Tweets mais recentes postados por um perfil público. Foi realizada uma requisição de até 400 tweets por perfil selecionado.
Foi realizada uma análise com os dados textuais obtidos. Para tal, uma série de procedimentos de limpeza dos dados foi necessária. Foram removidas stop-words, que são palavras que não acrescentam significado para um determinado texto, como por exemplo conjunções. Foi utilizada uma lista padrão de stop-words em português contida no pacote tm (Feinerer, Hornik, & Meyer, 2008). Após a remoção de palavras-chave, foi realizado um procedimento de análise de tópicos.
A análise de tópicos é uma técnica de processamento de linguagem natural que permite que se identifique tópicos de conversação latentes em um determinado documento (@ Blei, Ng, & Jordan, 2003; Ignatow & Mihalcea, 2017). Para identificação dos tópicos foi utilizada a ténica de Correlated Topic Models (CTM). A CTM é uma técnica hierárquica Bayesiana, onde cada documento é composto de uma série de tópicos e cada tópico é composto por uma série de palavras. O conjunto de Tweets de um perfil foi tratado com um documento (Blei & Lafferty, 2006).
Para que a CTM funcione, é necessário determinar o número de tópicos adequado a um conjunto de documentos (corpus). O número de tópicos não é dado e precisa ser estimado através de técnicas estatísticas. Na CTM, uma maneira de determinar o número de tópicos em um corpus é observando a perplexidade de um determinado modelo. A perplexidade é uma medida de quão bem uma distribuição é capaz de prever uma amostra, quão menor a perplexidade, melhor o modelo (Blei & Lafferty, 2006). Foram testados modelos com 2 a 15 tópicos, 20 e 30 tópicos.
Uma vez que a CTM foi realizada, é possível identificar que tópicos são mais proeminentes em quais perfis do Twitter selecionados. Desta maneira, é esperado que cada perfil possua uma composição de tópicos diferentes. Isso poderá ser visualizado através de análise da probabilidade de um tópico pertencer a um documento, onde um número próximo a 1 indica grande probabilidade de determinado tópico estar associado à um documento.
Até o presente momento foi possível implementar a CTM. No futuro, pretende-se que as seguintes análise e funcionalidades possam ser implementadas:
Janeiro:
Formulário para coleta de sugestões de perfils a serem analisados
Automatização do processo de análise de dados
Março:
Análise da dinâmica dos tópicos: como os tópicos de conversação variam de acordo com o tempo
Análise descritiva dos perfis, como quantidade de Tweets em determinado tópico
Visualização de Tweets
Junho:
Identificação de Tweets através de palavras-chave: isso permitirá que se identifique Tweets além dos coletados via perfil
Categorização de Tweets de acordo com Machine Learning: isso permitirá que um Tweet seja identificado como sendo relacionado à catástrofe climática ou não
Foram analisados 18 perfis do Twiiter, sendo 10 perfis de ativistas e entidades ligadas à preservação ambiental e 8 de entidades ligadas ao governo. Ao todo, foram coletados 3996 Tweets de ativistas e 3196 Tweets de entidades do governo. Através da análise de CTM, foi identificado que um modelo de 20 tópicos é o mais adequado ao corpus coletado. Os tópicos foram nomeados de acordo com as 10 principais palavras associadas àqueles tópicos. Um website foi construído para exposição do estudo e dos resultados obtidos.
Uma plataforma para visualização da proeminância de cada tópico foi construída e pode ser acessada através do cataclisma.eco.br ou vinilemos.shinyapps.io/cataclisma_topicos.
Foi escolhido o modelo de 20 tópicos devido à menor Perplexidade, quando comparado aos demais modelos testados. Os tópicos escolhidos foram os seguintes:
- Conservação Ambiental: abrange conversas à respeito da conservação de parques e unidades de preservação e o ICMBIO. Fiscalização: abrange conversas sobre fiscalização ambiental, IBAMA, operações correntes, etc.
- Gastos Governamentais: inclui conversas sobre gastos governamentais, menções ao Bolsonaro, governo e desemprego.
- Impacto do Desmatamento no Clima: inclui conversas sobre A Amazônia, gases de efeito estufa e desmatamento.
- Mata Atlântica: inclu conversas à respeito da Mata Atlântica
- Ativismo e Derramamento de Óleo: abrange conversas convocando ação frente ao derramamento de óleo.
- Agenda Ambiental: envolve conversas positivas e negativas sobre agendas ambientais.
- Fiscalização: abrange conversas sobre fiscalização ambiental, IBAMA, operações correntes, etc.
- Indígenas: abrange conversas sobre indígenas, seus direitos e ligação com a terra.
- Boulos: inclui conversas sobre Guilherme Boulos, inclindo as hashtags #boulosesonia50, #boulosnaglobo e #psol.
- Impacto Ambiental: conversas sobre desmatamento, derramento de óleo e seus impactos.
- Governo e Desmatamento: inclui conversas sobre o papel do governo no desmatamento da amazônia.
- Turismo: abrange conversas a respeito do turismo brasileiro.
- Derramamento de Óleo: abrange conversas à respeito do derramamento de óleo no nordeste.
- Ministério de Agricultura: abrange conversas à respeito do ministério da agricultura, incluindo menções à \(@terezacristinams\).
- Comunismo e Socialismo: inclui conversas sobre o papel da esquerda comunista frente aos desastres climáticos, incluindo menções à revista \(@jacobinbrasil\) e ao \(@makavelijones\).
- Ministério do Meio Ambiente: abrange conversas sobre o papel do Ministério do Meio Ambiente em relação à convervação ambiental.
- Comunidades na Amazônia: envolve conversas sobre comunidades que dependem da amazônia e da terra para subsistência.
- Desastres ambientais: abrange conversas sobre a Amazônia, derramamento de óleo e desmatamento.
- Presidência: abrange conversas direcionadas ao \(@jairbolsonaro\) e ao \(@generalmourao\).
- Governo Hoje: inclui conversas com delimitação temporal sobre o governo.
Um método de cross-validation pode ser utilizado para uma escolha mais robusta do número de tópicos (Yarkoni & Westfall, 2017). Através do procedimento de cross-validation poderíamos ter conduzido à análise com uma qunatidade menor de dados, o que permitira que mais modelos fossem testados. Além disso, poderíamos ter valido se esta quantidade de tópicos se mantém em diferentes amostras e em diferentes secções temporais.
Outra limitação sobre nossa escolha de tópicos é que cada usuário do Twitter escolhido fala, predominantemente, sobre um tópico e um tópico apenas. Além disso, os tópicos aparentam um viés positivo, com pouca interpretação par a uma observação do negacionismo climático, que era a proposta inicial.
Futuro:
Observatório de Hashtags
Seleção de tweets com base em palavras-chave/ aprendizado de máquina
Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. Journal of Machine Learning Research, 3(Jan), 993–1022.
Feinerer, I., Hornik, K., & Meyer, D. (2008). Text mining infrastructure in r. Journal of Statistical Software, 25(5), 1–54. Retrieved from http://www.jstatsoft.org/v25/i05/
Ignatow, G., & Mihalcea, R. (2017). An introduction to text mining: Research design, data collection, and analysis. Sage Publications.
Kearney, M. W. (2018). Rtweet: Collecting twitter data. Retrieved from https://cran.r-project.org/package=rtweet
R Core Team. (2018). R: A language and environment for statistical computing. Retrieved from https://www.R-project.org/
Yarkoni, T., & Westfall, J. (2017). Chossing prediction over explanation in psychology: Lessons from machine learning. Perspectives on Psychological Science.