Introdução

O documento a seguir tem por finalidade exibir uma aplicação simples do pacote rtweet (Kearney, 2016) voltado para a prospecção de mensagens da referida plataforma, no que tange a pandemia associada a Covid-19.


Disclaimer

A interpretação de dados referentes ao Twitter deve ser produzida com alguns cuidados, como explicado em (Ghosh, 2013), a plataforma pode ser um ambiente escorregadio. Tecnicamente, trata-se de uma amostra não probabilística, diante de uma população de referência qualquer. Em termos mais práticos, o Twitter pode ser obeservado como uma Amostra Estratificada, onde uma série de bolhas (grupos de pessoas) são homogêneas dentro de si, mas diferentes se comparado bolha a bolha. Em uma esfera maior, o Twitter não é um plataforma igualitariamente distribuída entre as camadas sociais de natureza diversa. Em especial, a literatura nota que a inserção de usuários de baixa renda ou idosos ainda é baixa.

Resumo: Por questões de survey design, não é possível fazer inferência em amostras obtidas através do twitter.


Utilização

Para a replicação exata do que será apresentado a seguir, os seguintes pacotes são sugeridos:

Coleta dos dados

A primeira etapa perpassa pela utilização do pacote rtweet e seu API (nada mais do que uma rotina que facilita o acesso a um fim de interesse.

Note que os parâmetros são a palavra de interesse, no caso #covid (uma hashtag), a opção de incluir respostas (geralmente não é de interesse) e a geolocalização se esta for necessária. Para que o geocode funcione adequadamente, é necessario a utilização de uma chave para entrar na API do Google e buscar manualmente a coordenada, o que não é um trabalho trivial.

Observação: O API do rtweet solicita uma autorização do urusário para que ele funcione, o que não acontece automaticamente no rmarkdown. Logo, é necessário fazer algumas manobras para que o dado entre corretamente nesta plataforma.

Faxina

Ao extrair a base na sua forma mais crua, existirão 90 variáveis, a grande maioria dispensáveis. A de se destacar, principalmente, a variavel textual (text) e a data, que podem ser utilizadas em algum contexto de análise exploratória. Algumas variáveis e seus problemas serão pontuadas ao final do documento.

Sendo o texto a principal variável de interesse, há de se notar que esta contêm algumas caraterísticas indesejáveis, como números, pronomes, artigos, pontuação, espaços desncessários , entre muitas outras. Um pacote de text mining interessante é o tm, cuja funções de mapeamento são úteis para objetos denominados Corpus.

Transformação

Em posse da variável de interesse, esta ainda se caracteriza como um string, isto é, uma sequência de caracteres ou simplesmente uma frase textual. Abaixo são listadas as 5 primeiras frases prospetadas, note que mais algumas limpezas precisam ser feitas como a retirada do http (referências a sites).

multimídia casos covid índia superam marca meio milhão óbitos httpstcoxpazrrfxrn httpstcofdsnfeami
brasil supera milhão infectados covid perto marca mil mortos httpstconhoztniw httpstcoftqaxzfm
multimídia beijing emite novas diretrizes prevenção covid httpstcograaged httpstcoqtujiwwb
multimídia parte continental china relata novos casos confirmados covid httpstcovwondl httpstcolbaojxrukv
multimídia nenhum outro país desenvolvido lidando tão mal luta contra covid colunista nyt httpstcokqmychpo httpstcoxcdigdgey

Para transformar este conjunto de textos em algo analisável, transforma-sse e uma matriz e no processo é interessante que haja um contador de palavras.


Análise exploratória

A seguir, serão apresentadas algumas formas de análise exploratória com um exemplo tabulado e um exemplo gráfico.

Contagem de palavras

A Tabela 1 apresenta uma análise inicial em uma contagem de palavras na escala de taxa, note que a interpretação é que de todas as palavras, covid apareceu em torno de 14%, seria incorreto afirmar que a palavra covid apareceu em 14% das frases.

Tabela 1 - Taxa (em %) da repetição de palavras em texto.

Palavra Taxa (%)
covid 13,7732223
brasil 2,4983985
coronavirus 2,3702755
pandemia 1,6655990
quarentena 1,4093530
multimídia 1,2812300
fohb 1,2171685
casos 1,0890455
coronavírus 1,0249840
sobre 0,8327995

Para apoiar os dados inicias, tem-se a Figura 1 que representa visualmente a Tabela 1, observa-se a disparidade da palavra covid, mas também note que alguns problemas podem surgir, por exemplo, coronavírus e conoravirus não são disintinguidas pelo API devido a uma acentuação, embora tragam a mesma informação.

Figura 1 - Gráfico de barras das taxas relativas das palavras.

Frequências min/max

Uma função interessante pode retornar as palavras com uma quantidade mínima ou máxima de aparições, caso seja de interesse do pesquisador.

casos
covid
multimídia
brasil
pandemia
fohb
coronavirus
quarentena
coronavírus

Correlação

Na mesma linha da função anterior, pode-se listar as palavras que tenham uma correlação mínima (pré-definida) com alguma palavra de interesse, por exemplo, isolamento.

isolamento.isolamentosocial 0,69
isolamento.memesdaily 0,69
isolamento.post 0,69
isolamento.quarentenanaosaoferias 0,69
isolamento.quarentine 0,69
isolamento.temporário 0,69
isolamento.vaipassar 0,69
isolamento.memes 0,64
isolamento.fiqueemcasa 0,52
isolamento.corona 0,46
isolamento.atividades 0,40
isolamento.coronavírus 0,36

Mas note que, pela função abaixo, que ele faz, no fundo, é uma correlação por posto, embora utilize a correlação de Pearson.


Considerações finais

A área de mineração de dados é promissora para quem compreende as suas nuances, uma vez a mesma demonstra uma série de de dificuldades que devem ser contornadas para que o resultado final não seja de certa forma viesado. As questões associadas a falta de um plano amostral probabilístico que enbase teoricamente uma pesquisa que tem por uso o twitter é uma outra espécie de complicador, uma vez que não é possível realizar generalizações inferenciais.


Referências

Ghosh, S., Zafar, M. B., Bhattacharya, P., Sharma, N., Ganguly, N., & Gummadi, K. (2013, October). On sampling the wisdom of crowds: random vs. expert sampling of the twitter stream. In Proceedings of the 22nd ACM international conference on Information & Knowledge Management (pp. 1739-1744).

Kearney, M. W., & Kearney, M. M. W. (2016). Package ‘rtweet’. URL: https://cran.r-project.org/web/packages/rtweet/rtweet.pdf [accessed 2019-03-19].


Extra: Gráfico de Nuvem