Dados das eleições da cidade de Ipubi

Introdução

Em um mundo cada vez mais impulsionado por dados, a capacidade de coletá-los, analisá-los e utilizá-los de forma estratégica se torna um diferencial crucial para o sucesso em diversos setores. Os dados, por si só, são como peças de um quebra-cabeça: inertes e sem significado. No entanto, quando combinados e interpretados de forma inteligente, revelam um universo de informações valiosas que podem transformar realidades.

Os dados serão abordados a partir da perspectiva da previsibilidade das eleições baseadas em dados coletados do engajamento das rede sociais dos políticos. O projeto será voltado a fazer uma comparação entre o engajamento e o resultado obtido nas urnas eletrônicas nas eleições de 2022, com recorte do estado de Pernambuco, que encontra-se disponível no “Portal de Dados Abertos” (n.d.).

O comparativo será abordado apenas com o recorte do estado de Pernambuco, devido ao grande volume de dados existentes a nível nacional, o problema será abordado apenas no recorte regional.

A análise poderá atestar quão compatível é o engajamento nas rede sociais com o resultado real de eleições. Através dessa anaálise poderá ser utilizada para justificar a venda de softwares e serviços que fazem a análise dessas redes sociais para que possa se converter em vendas ou materiais acadêmicos.

Pacotes Requeridos

electionsBR

O pacote oficial do Tribunal Superior Eleitoral (TSE) para o R, fornecendo acesso direto à base de dados eleitorais desde 1994.

Funções para obtenção de dados de eleições, candidatos, eleitorado e filiação partidária, desagregados por zona eleitoral.

Permite extrair informações como votos nominais, votos por partido, coligações, declarações de bens dos candidatos e muito mais.

tidyverse

Conjunto de pacotes “tidy” para manipulação, limpeza e visualização de dados.

Ferramentas para importar, estruturar, transformar e agrupar dados de forma eficiente.

Criação de gráficos informativos e personalizados para explorar os resultados eleitorais.

ggplot2

Pacote central do tidyverse para criação de visualizações de dados de alta qualidade.

Permite a construção de gráficos complexos com diversos elementos personalizáveis.

Ideal para gerar mapas, histogramas, gráficos de barras e dispersão para analisar padrões de votação e tendências geográficas.

dplyr

Outro pacote do tidyverse para manipulação de dados em formato “data frame”.

Funções para filtrar, ordenar, resumir e agrupar dados de forma intuitiva.

Simplifica o processo de preparar os dados para análise estatística e visualização.

data.table

Pacote para manipulação eficiente de grandes conjuntos de dados no R.

Altamente otimizado para operações de filtragem, ordenação e agregação, ideal para datasets eleitorais volumosos.

Preparação dos dados

Dados das eleições por município e zona

Os dados foram coletados no final de 2022, assim que a apuração dos votos das urnas eletrônicas foram coletadas. Os dados foram utilizados para atestar os candidatos eleitos em âmbito estadual e federal para os cargos de deputado, senador, governador e presidente. Os dados incluem cidade, data da eleição, quantidade de votos, cargo, turno e situação do candidato (eleito, não eleito, suplente), partido, etc.

Objetivo:

Estabelecer um objetivo claro para a importação e limpeza de dados, definindo o que se pretende alcançar com a análise. Isso direciona as etapas subsequentes e garante que o foco seja mantido.

Escopo:

Determinar o escopo dos dados a serem importados e limpos, incluindo fontes de dados, formatos e intervalos de tempo relevantes. Isso garante que os dados coletados sejam suficientes para o objetivo da análise.

Coleta de Dados:

Fontes de Dados:

Identificar e documentar todas as fontes de dados a serem utilizadas, incluindo bancos de dados internos, arquivos externos, APIs e outras plataformas.

Formatos de Dados:

Verificar os formatos dos dados em cada fonte, como CSV, Excel, JSON ou formatos proprietários. Planejar a conversão de formatos, se necessário, para garantir a consistência.

Coleta e Armazenamento:

Implementar um processo para coletar os dados de cada fonte, considerando métodos como download manual, extração automática ou APIs. Armazenar os dados em um local seguro e acessível.

library(dplyr)
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

votacao_candidato_munzona_2022_PE <- read.csv2("C:\\Users\\natas\\Downloads\\votacao_candidato_munzona_2022_PE.csv")

votos_ipubi <- filter(votacao_candidato_munzona_2022_PE, NM_MUNICIPIO == "IPUBI")


pie(table(votos_ipubi$QT_VOTOS_NOMINAIS_VALIDOS, votos_ipubi$DS_SIT_TOT_TURNO))

O gráfico demostra os candidatos com mais votos na cidade de Ipubi, que foram as atuais senadora e governadora do estado de Pernambuco, Teresa leitão e Raquel Lyra, respectivamente. Os dados demonstram que a zona eleitoral tem uma grande dispersão de votos nos cargos que há mais candidatos, como os de deputado federal e estadual, o que podemos ver na filtragem dos dados, que nenhum deputado foi muito votado no município, resultando em nenhum deputado com grande cabo eleitoral no município. Esses dados são importantes para podermos oferecer uma análise de dados para os candidatos concentrarem suas forças políticas e camapanham em locais que possuem maior peso político. Esses dados podem ser bastante úteis a nível de pesquisa acadêmica e também para os profissionais de comunicação social e relações públicas, que podem saber onde investir, e ao mesmo tempo captar locais pouco explorados mas que tenham potencial.

Inspeção e Análise Exploratória de Dados:

Visualização de Dados:

Visualizar os dados brutos usando gráficos e tabelas para identificar padrões, tendências e anomalias. Isso fornece uma compreensão inicial da qualidade e dos problemas potenciais dos dados.

Análise Estatística Descritiva:

Calcular medidas estatísticas descritivas, como média, mediana, desvio padrão, mínimo e máximo, para cada variável. Isso fornece informações sobre a centralidade, dispersão e valores extremos dos dados.

dados_filtrados <- filter(votacao_candidato_munzona_2022_PE, NM_MUNICIPIO == "IPUBI" & DS_SIT_TOT_TURNO == "ELEITO")
summary(dados_filtrados, NM_MUNICIPIO & DS_CARGO & DS_SIT_TOT_TURNO)
##   DT_GERACAO         HH_GERACAO         ANO_ELEICAO   CD_TIPO_ELEICAO
##  Length:2           Length:2           Min.   :2022   Min.   :2      
##  Class :character   Class :character   1st Qu.:2022   1st Qu.:2      
##  Mode  :character   Mode  :character   Median :2022   Median :2      
##                                        Mean   :2022   Mean   :2      
##                                        3rd Qu.:2022   3rd Qu.:2      
##                                        Max.   :2022   Max.   :2      
##  NM_TIPO_ELEICAO       NR_TURNO      CD_ELEICAO     DS_ELEICAO       
##  Length:2           Min.   :1.00   Min.   :546.0   Length:2          
##  Class :character   1st Qu.:1.25   1st Qu.:546.2   Class :character  
##  Mode  :character   Median :1.50   Median :546.5   Mode  :character  
##                     Mean   :1.50   Mean   :546.5                     
##                     3rd Qu.:1.75   3rd Qu.:546.8                     
##                     Max.   :2.00   Max.   :547.0                     
##   DT_ELEICAO        TP_ABRANGENCIA        SG_UF              SG_UE          
##  Length:2           Length:2           Length:2           Length:2          
##  Class :character   Class :character   Class :character   Class :character  
##  Mode  :character   Mode  :character   Mode  :character   Mode  :character  
##                                                                             
##                                                                             
##                                                                             
##     NM_UE            CD_MUNICIPIO   NM_MUNICIPIO          NR_ZONA   
##  Length:2           Min.   :24457   Length:2           Min.   :133  
##  Class :character   1st Qu.:24457   Class :character   1st Qu.:133  
##  Mode  :character   Median :24457   Mode  :character   Median :133  
##                     Mean   :24457                      Mean   :133  
##                     3rd Qu.:24457                      3rd Qu.:133  
##                     Max.   :24457                      Max.   :133  
##     CD_CARGO     DS_CARGO          SQ_CANDIDATO      NR_CANDIDATO   
##  Min.   :3.0   Length:2           Min.   :1.7e+11   Min.   : 45.00  
##  1st Qu.:3.5   Class :character   1st Qu.:1.7e+11   1st Qu.: 66.25  
##  Median :4.0   Mode  :character   Median :1.7e+11   Median : 87.50  
##  Mean   :4.0                      Mean   :1.7e+11   Mean   : 87.50  
##  3rd Qu.:4.5                      3rd Qu.:1.7e+11   3rd Qu.:108.75  
##  Max.   :5.0                      Max.   :1.7e+11   Max.   :130.00  
##  NM_CANDIDATO       NM_URNA_CANDIDATO  NM_SOCIAL_CANDIDATO
##  Length:2           Length:2           Length:2           
##  Class :character   Class :character   Class :character   
##  Mode  :character   Mode  :character   Mode  :character   
##                                                           
##                                                           
##                                                           
##  CD_SITUACAO_CANDIDATURA DS_SITUACAO_CANDIDATURA CD_DETALHE_SITUACAO_CAND
##  Min.   :12              Length:2                Min.   :2               
##  1st Qu.:12              Class :character        1st Qu.:2               
##  Median :12              Mode  :character        Median :2               
##  Mean   :12                                      Mean   :2               
##  3rd Qu.:12                                      3rd Qu.:2               
##  Max.   :12                                      Max.   :2               
##  DS_DETALHE_SITUACAO_CAND TP_AGREMIACAO        NR_PARTIDO  SG_PARTIDO       
##  Length:2                 Length:2           Min.   :13   Length:2          
##  Class :character         Class :character   1st Qu.:21   Class :character  
##  Mode  :character         Mode  :character   Median :29   Mode  :character  
##                                              Mean   :29                     
##                                              3rd Qu.:37                     
##                                              Max.   :45                     
##   NM_PARTIDO         NR_FEDERACAO  NM_FEDERACAO       SG_FEDERACAO      
##  Length:2           Min.   :1.00   Length:2           Length:2          
##  Class :character   1st Qu.:1.25   Class :character   Class :character  
##  Mode  :character   Median :1.50   Mode  :character   Mode  :character  
##                     Mean   :1.50                                        
##                     3rd Qu.:1.75                                        
##                     Max.   :2.00                                        
##  DS_COMPOSICAO_FEDERACAO  SQ_COLIGACAO     NM_COLIGACAO      
##  Length:2                Min.   :1.7e+11   Length:2          
##  Class :character        1st Qu.:1.7e+11   Class :character  
##  Mode  :character        Median :1.7e+11   Mode  :character  
##                          Mean   :1.7e+11                     
##                          3rd Qu.:1.7e+11                     
##                          Max.   :1.7e+11                     
##  DS_COMPOSICAO_COLIGACAO ST_VOTO_EM_TRANSITO QT_VOTOS_NOMINAIS
##  Length:2                Length:2            Min.   :7013     
##  Class :character        Class :character    1st Qu.:7113     
##  Mode  :character        Mode  :character    Median :7213     
##                                              Mean   :7213     
##                                              3rd Qu.:7313     
##                                              Max.   :7413     
##  NM_TIPO_DESTINACAO_VOTOS QT_VOTOS_NOMINAIS_VALIDOS CD_SIT_TOT_TURNO
##  Length:2                 Min.   :7013              Min.   :1       
##  Class :character         1st Qu.:7113              1st Qu.:1       
##  Mode  :character         Median :7213              Median :1       
##                           Mean   :7213              Mean   :1       
##                           3rd Qu.:7313              3rd Qu.:1       
##                           Max.   :7413              Max.   :1       
##  DS_SIT_TOT_TURNO  
##  Length:2          
##  Class :character  
##  Mode  :character  
##                    
##                    
## 

Os dados apresentados mostram quantos canditados o município de Ipubi, no sertão Pernambucano ajudou a eleger. Podemos ver detalhes do cargo pretendido, da situação eleitoral, quantidade de votos e também a situação após o segundo turno. Como medida de segurança e também respeitando as leis eleitorais, não temos dados dos eleitores e em quem votaram, permanecendo assim o princípio do voto secreto.

Identificação de Problemas:

Buscar problemas de dados comuns, como valores ausentes, valores duplicados, outliers, inconsistências de formato e erros de digitação. Isso garante que os dados sejam precisos e confiáveis para análise.

Limpeza e Transformação de Dados:

rmarkdown::paged_table(votos_ipubi, options = list(rows.print = 15))

Tratamento de Valores Ausentes:

Tratar valores ausentes de forma adequada, considerando o tipo de dado, a causa da ausência e o impacto na análise. Opções comuns incluem remoção de registros, imputação de valores ou codificação como um valor ausente.

Tratamento de Duplicatas:

Remover registros duplicados com base em identificadores únicos, como IDs de clientes, números de pedidos ou outras chaves primárias. Isso garante que cada registro represente uma entidade única.

Correção de Erros e Inconsistências:

Corrigir erros de digitação, formatação e inconsistências nos dados. Isso garante que os dados sejam precisos e consistentes para análise.

Referências

“Portal de Dados Abertos.” n.d. Webpage. https://dados.gov.br/dados/conjuntos-dados/resultados-2022.