As bases

As bases dos arquivos estavam divididas por semana. A data inicial foi de 17/08/22 e a final 12/10/22, somando 8 semanas de análise. As bases não estavam estruturadas harmonicamente. Entre a 5ª e 8ª semana o número de variáveis foi o menor. Com a 5ª semana com 10 colunas e, as demais com 11 colunas.
As quatro primeiras semanas possuíam um volume muito maior de colunas, sendo da 1ª a 3ª semana com 56 colunas e a 4ª semana com 62 colunas.
No total, todas as semanas somaram 155.814 linhas.
Portanto, fizemos uma padronização que reduziu o total de colunas para que ficássemos com uma base de análise com variáveis comuns entre todas as semanas.

## [1] 155814

Dessa forma, pegamos as colunas de “nome da candidatura ofendida” e o “texto da ofensa”, que eram variáveis comuns a todas as semanas.

A base de análise ficou com 155.814 linhas e 2 colunas, você pode olhar com mais detalhes abaixo:
Os nomes das candidatas incluem nomes de não candidatas, como Janja. Além disso o campo dos nomes possuía textos não pertencentes ao nome e também tínhamos nomes de candidatos do gênero masculino. Na tabela abaixo é possível vermos os detalhes dos nomes. Foi realizado uma padronização pelo campo menor, ou seja, no caso de “Bella Gonçalves | Deputado Estadual | Minas Gerais” essa entrada foi modificada apenas para “Bella Gonçalves”

Após a padronização dos nomes, a contagem das menções por candidato alcançou

Top 10 Mulheres

Para sabermos as informações de gênero, raça, escolaridade, partido e idade trouxemos as informações da base de candidaturas divulgada pelo TSE. A base das mulheres mencionadas, com as informações de candidatura e a quantidade de menções de cada uma pode ser melhor visualizada abaixo:

A candidata com menor quantidade de menções foi Laura Serrano, com apenas 5 mensagens. E a candidata com maior quantidade foi Joice Hasselman, com 14.027.
A média de menções por candidata foi de 2.614, porém esse número é desequilibrado por termos candidatas com um número muito alto de menções, como Joice, Carla e Marina.
75% das candidatas teve até 3.370 (3º quartil), uma quantidade bem abaixo da média. E 50% das candidatas tiveram apenas 283 menções (mediana).

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     5.0    68.5   248.5  2777.2  4105.8 14027.0


Entretanto Janja, exposa do presidente Lula, supera topas as menções 30.027 menções o dobro da candidata mais citada no levantamento.


No gráfico abaixo, conseguimos identificar que das 32 candidatas mencionadas pelo levantamento, oito delas se posicionam acima da média de menção por perfil (representada pela linha vermelha tracejada).

UF’s das candidatas

As candidaturas participantes do levantamento são predominantemente do estado de São Paulo, com 40,6% do total. Entretanto, existe uma mulher sem UF que é Mara Gabrilli, candidata à vice presidência com Simone Tebet.

##         Frequency Percent Cum. percent
## SP             12    42.9         42.9
## RJ              6    21.4         64.3
## MG              6    21.4         85.7
## ES              3    10.7         96.4
## BR              1     3.6        100.0
##   Total        28   100.0        100.0

Cargos das candidatas

O cargo de deputada federal teve a maioria das menções mapeadas pelo estudo (53,6%), o que é curioso, tendo em vista que a quantidade de candidaturas à deputadas estaduais é a maior

##                   Frequency Percent Cum. percent
## DEPUTADO FEDERAL         15    53.6         53.6
## DEPUTADO ESTADUAL         7    25.0         78.6
## GOVERNADOR                3    10.7         89.3
## SENADOR                   2     7.1         96.4
## VICE-PRESIDENTE           1     3.6        100.0
##   Total                  28   100.0        100.0

Partidos das candidatas

O partido das candidaturas femininas com maior quantidade de candidatas mencionadas foi o PSOL, responsável por 32,1% das menções mapeadas.
Porém o PSB tem quase 10.000 de média de menções, quase 3mil a mais da média do União que tem média de menção de 6.654.

##         Frequency Percent Cum. percent
## PSOL            9    32.1         32.1
## PT              3    10.7         42.9
## PSDB            3    10.7         53.6
## REDE            2     7.1         60.7
## PL              2     7.1         67.9
## UP              1     3.6         71.4
## UNIÃO           1     3.6         75.0
## PSB             1     3.6         78.6
## PRTB            1     3.6         82.1
## PDT             1     3.6         85.7
## PCB             1     3.6         89.3
## PC do B         1     3.6         92.9
## NOVO            1     3.6         96.4
## MDB             1     3.6        100.0
##   Total        28   100.0        100.0
## # A tibble: 14 × 2
##    SG_PARTIDO média
##    <chr>      <dbl>
##  1 PSB        9999 
##  2 UNIÃO      6654 
##  3 PL         5593 
##  4 REDE       5481 
##  5 PSDB       5440.
##  6 PRTB       3792 
##  7 PSOL       1763.
##  8 PDT        1660 
##  9 PT          299.
## 10 PC do B     286 
## 11 MDB          67 
## 12 PCB          47 
## 13 UP           19 
## 14 NOVO          5

Idade das candidatas

As candidatas tem em média 47 anos, sendo a mais jovem com 29 sendo a Tabata Amaral com 9.999 menções e a candidata com mais idade foi Luiza Erundina com 1.088 menções. Pra sabermos se há uma tendência inversa de maior menções para menor idade plotamos o gráfico de linha da idade pela quantidade de menção. Apesar de parecer haver uma tendência de que acima dos 50 anos há menos menções não podemos afirmar pela baixa quantidade de dados presentes no gráfico.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   29.00   33.75   42.00   47.07   55.25   88.00

## Escolaridade das candidatas

Candidatas com ensino superior tem média de menções muito mais acima que as de outra escolaridade. Mas isso novamente pode ser atribuído às mais mencionadas no geral, o que independe do grau de escolaridade.

## # A tibble: 3 × 2
##   DS_GRAU_INSTRUCAO     `mean(Qtde_menções)`
##   <chr>                                <dbl>
## 1 ENSINO MÉDIO COMPLETO                 152.
## 2 SUPERIOR COMPLETO                    3502.
## 3 SUPERIOR INCOMPLETO                   104.

Estado civil das candidatas

As candidatas são predominantemente casadas (46,4%), seguidas das candidatas solteiras (39,3%).
Entretanto, candidatas casadas tem 4.404 de média de menções versus 1.732 de média das candidatas solteiras.

##               Frequency Percent Cum. percent
## CASADO(A)            13    46.4         46.4
## SOLTEIRO(A)          11    39.3         85.7
## DIVORCIADO(A)         3    10.7         96.4
## VIÚVO(A)              1     3.6        100.0
##   Total              28   100.0        100.0
## # A tibble: 4 × 2
##   DS_ESTADO_CIVIL `mean(Qtde_menções)`
##   <chr>                          <dbl>
## 1 CASADO(A)                      4404.
## 2 DIVORCIADO(A)                   421 
## 3 SOLTEIRO(A)                    1732.
## 4 VIÚVO(A)                        185

Raça/cor das candidatas

Candidatas da raça branca são 50% do total, seguidas das candidatas pretas com 32,1%.
A média de menções das candidatas brancas foram de 4.198, versus a média de 1.922 das candidatas pretas

##          Frequency Percent Cum. percent
## BRANCA          14    50.0         50.0
## PRETA            9    32.1         82.1
## PARDA            3    10.7         92.9
## INDÍGENA         2     7.1        100.0
##   Total         28   100.0        100.0
## # A tibble: 4 × 2
##   DS_COR_RACA `mean(Qtde_menções)`
##   <chr>                      <dbl>
## 1 BRANCA                     4198.
## 2 INDÍGENA                    634.
## 3 PARDA                       140.
## 4 PRETA                      1922.

Homens

O candidato com menor quantidade de menções foi Paulinho da Força, com apenas 1 mensagem. E a candidato com maior quantidade foi Eduardo Bolsonaro, com 4.019.
A média de menções por candidato foi de 572, porém esse número é desequilibrado por termos candidatas com um número muito alto de menções, como Eduardo, Kim e Ivan.
75% dos candidatos teve até 545 (3º quartil), uma quantidade bem abaixo da média. E 50% dos candidatos tiveram apenas 126 menções (mediana).

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     1.0    13.0   126.0   572.7   545.0  4019.0


No gráfico abaixo, conseguimos identificar que dos 19 candidatos mencionados pelo levantamento, cinco deles se posicionam acima da média de menção por perfil (representada pela linha vermelha tracejada).

UF’s dos candidatos

As candidaturas participantes do levantamento são predominantemente do estado de São Paulo, com 78,9% do total.

##         Frequency Percent Cum. percent
## SP             15    78.9         78.9
## RJ              3    15.8         94.7
## ES              1     5.3        100.0
##   Total        19   100.0        100.0

Cargos das candidatos

O cargo de deputado federal teve praticamente todas as ocoreeências, com a excceção do Paulo Ganime que se candidatou a Governador.

##                  Frequency Percent Cum. percent
## DEPUTADO FEDERAL        18    94.7         94.7
## GOVERNADOR               1     5.3        100.0
##   Total                 19   100.0        100.0

Partidos dos candidatos

O partido das candidaturas femininas com maior quantidade de candidatas mencionadas foi o PL, responsável por 21,1% das menções mapeadas.
E também concentra a maior média de menções com 1.168

##               Frequency Percent Cum. percent
## PL                    4    21.1         21.1
## UNIÃO                 2    10.5         31.6
## REPUBLICANOS          2    10.5         42.1
## PT                    2    10.5         52.6
## PSOL                  2    10.5         63.2
## PDT                   2    10.5         73.7
## NOVO                  2    10.5         84.2
## SOLIDARIEDADE         1     5.3         89.5
## PMB                   1     5.3         94.7
## PC do B               1     5.3        100.0
##   Total              19   100.0        100.0
## # A tibble: 10 × 2
##    SG_PARTIDO     média
##    <chr>          <dbl>
##  1 PL            1168. 
##  2 UNIÃO          992  
##  3 PSOL           878. 
##  4 PMB            856  
##  5 NOVO           545  
##  6 PT             124. 
##  7 PC do B         98  
##  8 REPUBLICANOS    74.5
##  9 PDT             12  
## 10 SOLIDARIEDADE    1

Idade dos candidatos

Os candidatas tem em média 47 anos, sendo o mais jovem com 26 sendo o Fernando Holiday com 491 menções e o candidata com mais idade foi Ivan Valente com 1.755 menções. Pra sabermos se há uma tendência inversa de maior menções para menor idade plotamos o gráfico de linha da idade pela quantidade de menção. Não há tendência aparente.

##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   26.00   35.50   50.00   46.53   55.00   76.00

## Escolaridade dos candidatos

Candidatas com ensino superior INcompleto tem média de menções muito mais acima que as de outra escolaridade.

## # A tibble: 4 × 2
##   DS_GRAU_INSTRUCAO           `mean(Qtde_menções)`
##   <chr>                                      <dbl>
## 1 ENSINO FUNDAMENTAL COMPLETO                   1 
## 2 ENSINO MÉDIO COMPLETO                       122 
## 3 SUPERIOR COMPLETO                           577.
## 4 SUPERIOR INCOMPLETO                        1977

Estado civil dos candidatos

Há um certo equilíbrio entre candidatos casados e solteiros incluídos no levantamento.

##             Frequency Percent Cum. percent
## CASADO(A)          10    52.6         52.6
## SOLTEIRO(A)         9    47.4        100.0
##   Total            19   100.0        100.0
## # A tibble: 4 × 2
##   DS_ESTADO_CIVIL `mean(Qtde_menções)`
##   <chr>                          <dbl>
## 1 CASADO(A)                      4404.
## 2 DIVORCIADO(A)                   421 
## 3 SOLTEIRO(A)                    1732.
## 4 VIÚVO(A)                        185

Raça/cor dos candidatos

A média de menções das candidatos amarelos foi a maior com 1.977, versus a média de 852 dos candidatos pretos

##          Frequency Percent Cum. percent
## BRANCA           9    47.4         47.4
## PRETA            8    42.1         89.5
## INDÍGENA         1     5.3         94.7
## AMARELA          1     5.3        100.0
##   Total         19   100.0        100.0
## # A tibble: 4 × 2
##   DS_COR_RACA `mean(Qtde_menções)`
##   <chr>                      <dbl>
## 1 AMARELA                    1977 
## 2 BRANCA                      853.
## 3 INDÍGENA                     19 
## 4 PRETA                       152.