1. Introdução

1.1. Antes de começar

Os dados fonte desse documento são dados sobre o Engajamento de parlamentares brasileiros no twitter e foram dados carregados de CSVs que podem ser encontrados nesse link. Durante esse documento várias descobertas foram feitas e todas elas estarão grifadas em negrito.

1.2. Conhecendo os Dados

A primeira coisa que se aconselha fazer quando se está trabalhando com um dataset novo é olhar como estão estruturadas as colunas e as linhas, por isso, vamos dar uma olhada nesses dados:

Observations: 608
Variables: 19
$ id_parlamentar        <chr> "204554", "204521", "204379", "204560", "204528…
$ casa                  <chr> "câmara", "câmara", "câmara", "câmara", "câmara…
$ nome_eleitoral        <chr> "ABÍLIO SANTANA", "ABOU ANNI", "ACÁCIO FAVACHO"…
$ partido               <chr> "PR", "PSL", "PROS", "PSDB", "NOVO", "PP", "PSD…
$ UF                    <chr> "BA", "SP", "AP", "BA", "SP", "GO", "MG", "BA",…
$ twitter               <chr> "AbilioSantana_", "abouannipv", "FavachoAcacio"…
$ seguidores            <dbl> NA, NA, NA, NA, 4652, NA, NA, NA, NA, NA, NA, N…
$ segue                 <dbl> NA, NA, NA, NA, 315, NA, NA, NA, NA, NA, NA, NA…
$ n_proprio             <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 49, 21…
$ n_retweet             <dbl> 0, 0, 0, 0, 9, 0, 0, 0, 0, 0, 0, 0, NA, 1, 30, …
$ engaj_total           <dbl> 0, 0, 0, 0, 7090, 0, 0, 0, 0, 0, 0, 0, NA, 4286…
$ engaj_total_proprio   <dbl> 0, 0, 0, 0, 6701, 0, 0, 0, 0, 0, 0, 0, NA, 284,…
$ engaj_total_retweet   <dbl> 0, 0, 0, 0, 389, 0, 0, 0, 0, 0, 0, 0, NA, 4002,…
$ engaj_mediano         <dbl> 0.0, 0.0, 0.0, 0.0, 26.5, 0.0, 0.0, 0.0, 0.0, 0…
$ engaj_mediano_proprio <dbl> 0.0, 0.0, 0.0, 0.0, 22.5, 0.0, 0.0, 0.0, 0.0, 0…
$ engaj_mediano_retweet <dbl> 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.…
$ engaj_max             <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA, 4002…
$ engaj_max_proprio     <dbl> 0, 0, 0, 0, 1031, 0, 0, 0, 0, 0, 0, 0, NA, 38, …
$ engaj_max_retweet     <dbl> 0, 0, 0, 0, 99, 0, 0, 0, 0, 0, 0, 0, NA, 4002, …

Podemos ver que temos algumas colunas interessantes que falam tanto do engajamento do parlamentar no twitter (n_retweet, engaj_total, engaj_max), como também temos colunas que falam sobre o parlamentar em si (id_parlamentar, nome_eleitoral, UF). Podemos ver também que colunas como seguidores e como n_proprio possuem muitos dados inexistentes. Para entender melhor essas duas colunas, podemos olhar o sumario delas:

   seguidores          segue        
 Min.   :     21   Min.   :    0.0  
 1st Qu.:   1886   1st Qu.:  177.8  
 Median :   5144   Median :  481.0  
 Mean   :  45769   Mean   : 1233.1  
 3rd Qu.:  18126   3rd Qu.: 1080.5  
 Max.   :2558401   Max.   :23016.0  
 NA's   :238       NA's   :238      

Ao olhar o sumário dessas duas colunas, percebemos que a quantidade de dados NA é igual.

2. Primeira análise

2.1. Será que todos os parlamentares que possuem seguidores igual a NA terão segue igual a NA?

Para descobrir isso, fazemos um filtro e contamos a quantidades de linhas resultantes daquele filtro. Se for zero, não existem parlamentares que possuem seguidores igual a NA e que possuem segue diferente de NA. Se for maior que 0, existe algum parlamentar em que isso ocorre.

Temos um número de linhas igual a zero. Isso quer dizer que a nossa pergunta é SIM! Todos os parlamentares que possuem seguidores igual a NA também possuem segue igual a NA.

2.2. O que esse NA nessas colunas significa?

Vamos olhar os parlamentares que possuem essas colunas igual a NA

Com esse filtro, podemos identificar três tipos de parlamentares:

  1. Aqueles que possuem o twitter, seguidores e segue igual a NA: Isso significa que o seguidores e o segue iguais a NA são decorrentes do fato que o parlamentar não possui twitter.
  2. Aqueles que possuem o twitter diferente de NA mas possuem seguidores e segue igual a NA: Isso pode significar que quando os dados foram coletados, não foram coletados nenhum dado além do twitter desses parlamentares e por isso as coluas seguidores e segue são iguais a NA.
  3. Aqueles que possuem o twitter, seguidores e segue diferente de NA: Isso significa que os dados sobre esse parlamentar foram coletados normalmente.

Com isso, podemos definir o conceito de parlamentar valido na nossa analise, que seria o nosso 3° caso.

2.3. Será que existe algum parlamentar com seguidores ou segue igual a zero?

Essa pergunta poderia ser respondida usando o Sumário, no entanto, vamos dizer que não haviamos olhado o sumário antes e gostariamos de responder a essa pergunta sem olha-lo, como fariamos?

Olhamos se existem parlamentares com seguidores ou segue igual a zero com um filtro bem simples:

O unico parlamentar que possui seguidores ou segue igual a zero, é o parlamentar EUCLYDES PETTERSEN. Nesse caso, ele não segue ninguem mas possui seguidores.

Nesses dados, não existe nenhum parlamentar que segue alguem, mas não tem seguidores.

3. O deputado Euclydes

3.1. Analisando os dados desse parlamentar

Vamos olhar mais de perto esse parlamentar, especialmente as colunas relacionadas ao engajamento.

Podemos ver que o engaj_total, o engaj_max, o n_proprio e o n_retweet dele são bem baixos.

Isso leva a seguinte pergunta: Será que a quantidade de tweets está relacionado de alguma forma com o engajamento? Como é essa relação?

3.2 Analisando seu comportamento em relação aos outros parlamentares

Para analisar a relação da quantidade de tweets e engajamento do deputado Euclydes, usaremos ele como ponto de referência para a analise conjunta com outros parlamentares.

Para isso, usaremos dados de parlamentares com twiters validos e que possuem atividade no twitter, ou seja, parlamentares que sejam ativos no twitter, e faremos um gráfico que cruza engaj_total e n_proprio.

Primeiramente, filtraremos quais parlamentares importam pra gente:

Após isso, daremos destaque a Euclydes:

E por ultimo, faremos o gráfico:

Nesse gráfico pode-se ver que Euclydes possui um número de tweets relativamente alto em relação aos outros parlamentares mas não possui um engajamento total bom.

O que normalmente acontece com os parlamentares, é que quanto mais tweets proprios, mais engajamento eles conseguem.

Isso significa que pode existir uma relação entre engaj_total e n_proprio.

4. Analisando a relação entre engaj_total e n_proprio no dataset

Para descrever essa relação precisamos responder a 4 perguntas:

  1. Qual o tipo?
  2. Qual o sinal?
  3. Qual a força?
  4. Quais são os pontos extremos?

4.1. Qual o tipo?

Essa relação é não linear visto que o formato do gráfico de dispersão se aproxima de uma função exponencial.

OBS: Mesmo usando escalas de log, está se usando essa escala nos dois eixos, com isso, há uma transformação nos dois eixos e a escala de log está ajudando apenas na visualização da relação e não interfere no tipo da relação.

4.3. Qual a força?

Para ver o quão forte ela é, podemos utilizar um coeficiente de correlação:

Com o coeficiente de correlação de spearman podemos ver que ela é uma relação forte. Usamos o coeficiente de spearman por se tratar de uma relação não linear e que tem um carater exponencial.

4.4. Quais são os pontos extremos?

Podemos ver que temos pontos extremo onde o engaj_total é bem alto, no entanto não temos um número alto de n_proprio. Vamos identificar esses pontos no gráfico destacando-os:

Para identificar esses pontos extremos, fez-se uma comparação entre o engaj_total e as funções engaj_total_esperado_min(n_proprio) e engaj_total_esperado_max(n_proprio), onde se o engaj_total estivesse fora do intervalo definido pelo valor dessas duas funções, ele seria um ponto extremo. Foram usadas funções exponenciais já que se trata de uma relação não linear, onde seu formato se assemelha a uma função exponencial.

5. Descobertas

Durante essa exploração, tivemos várias descobertas. Todas elas serão listadas aqui:

  • Pode-se identificar três tipos de parlamentares quanto as colunas seguidores, segue e twitter serem iguais a NA:

    1. Aqueles que possuem o twitter, seguidores e segue igual a NA: Isso significa que o seguidores e o segue iguais a NA são decorrentes do fato que o parlamentar não possui twitter.
    2. Aqueles que possuem o twitter diferente de NA mas possuem seguidores e segue igual a NA: Isso pode significar que quando os dados foram coletados, não foram coletados nenhum dado além do twitter desses parlamentares e por isso as coluas seguidores e segue são iguais a NA.
    3. Aqueles que possuem o twitter, seguidores e segue diferente de NA: Isso significa que os dados sobre esse parlamentar foram coletados normalmente.
  • O unico parlamentar que possui segue igual a zero, é o parlamentar EUCLYDES PETTERSEN
  • O parlamentar EUCLYDES PETTERSEN, mesmo não seguindo ninguem, possui seguidores
  • Não existe nenhum parlamentar que segue alguem, mas não tem seguidores.
  • Para o parlamentar EUCLYDES PETTERSEN, podemos ver que o engaj_total, o engaj_max, o n_proprio e o n_retweet dele são bem baixos.
    • Isso pode ser generalizado para outros parlamentares?
  • EUCLYDES PETTERSEN possui um número de tweets relativamente alto em relação aos outros parlamentares mas não possui um engajamento total bom.
  • Normalmente acontece com os parlamentares, é que quanto mais tweets proprios, mais engajamento eles conseguem.
  • Existencia da relação entre n_proprio e engajamento:

    1. É não linear e se aproxima de uma função exponencial.
    2. Possui sinal positivo
    3. É uma relação forte
    4. Existem pontos extremos que foram plotados no seguinte grafico: