Em um mundo cada vez mais impulsionado por dados, a capacidade de coletá-los, analisá-los e utilizá-los de forma estratégica se torna um diferencial crucial para o sucesso em diversos setores. Os dados, por si só, são como peças de um quebra-cabeça: inertes e sem significado. No entanto, quando combinados e interpretados de forma inteligente, revelam um universo de informações valiosas que podem transformar realidades.
Os dados serão abordados a partir da perspectiva da previsibilidade das eleições baseadas em dados coletados do engajamento das rede sociais dos políticos. O projeto será voltado a fazer uma comparação entre o engajamento e o resultado obtido nas urnas eletrônicas nas eleições de 2022, com recorte do estado de Pernambuco, que encontra-se disponível no “Portal de Dados Abertos” (n.d.).
O comparativo será abordado apenas com o recorte do estado de Pernambuco, devido ao grande volume de dados existentes a nível nacional, o problema será abordado apenas no recorte regional.
A análise poderá atestar quão compatível é o engajamento nas rede sociais com o resultado real de eleições. Através dessa anaálise poderá ser utilizada para justificar a venda de softwares e serviços que fazem a análise dessas redes sociais para que possa se converter em vendas ou materiais acadêmicos.
electionsBR
O pacote oficial do Tribunal Superior Eleitoral (TSE) para o R, fornecendo acesso direto à base de dados eleitorais desde 1994.
Funções para obtenção de dados de eleições, candidatos, eleitorado e filiação partidária, desagregados por zona eleitoral.
Permite extrair informações como votos nominais, votos por partido, coligações, declarações de bens dos candidatos e muito mais.
tidyverse
Conjunto de pacotes “tidy” para manipulação, limpeza e visualização de dados.
Ferramentas para importar, estruturar, transformar e agrupar dados de forma eficiente.
Criação de gráficos informativos e personalizados para explorar os resultados eleitorais.
ggplot2
Pacote central do tidyverse para criação de visualizações de dados de alta qualidade.
Permite a construção de gráficos complexos com diversos elementos personalizáveis.
Ideal para gerar mapas, histogramas, gráficos de barras e dispersão para analisar padrões de votação e tendências geográficas.
dplyr
Outro pacote do tidyverse para manipulação de dados em formato “data frame”.
Funções para filtrar, ordenar, resumir e agrupar dados de forma intuitiva.
Simplifica o processo de preparar os dados para análise estatística e visualização.
data.table
Pacote para manipulação eficiente de grandes conjuntos de dados no R.
Altamente otimizado para operações de filtragem, ordenação e agregação, ideal para datasets eleitorais volumosos.
Dados das eleições por município e zona
Os dados foram coletados no final de 2022, assim que a apuração dos votos das urnas eletrônicas foram coletadas. Os dados foram utilizados para atestar os candidatos eleitos em âmbito estadual e federal para os cargos de deputado, senador, governador e presidente. Os dados incluem cidade, data da eleição, quantidade de votos, cargo, turno e situação do candidato (eleito, não eleito, suplente), partido, etc.
Objetivo:
Estabelecer um objetivo claro para a importação e limpeza de dados, definindo o que se pretende alcançar com a análise. Isso direciona as etapas subsequentes e garante que o foco seja mantido.
Escopo:
Determinar o escopo dos dados a serem importados e limpos, incluindo fontes de dados, formatos e intervalos de tempo relevantes. Isso garante que os dados coletados sejam suficientes para o objetivo da análise.
Fontes de Dados:
Identificar e documentar todas as fontes de dados a serem utilizadas, incluindo bancos de dados internos, arquivos externos, APIs e outras plataformas.
Formatos de Dados:
Verificar os formatos dos dados em cada fonte, como CSV, Excel, JSON ou formatos proprietários. Planejar a conversão de formatos, se necessário, para garantir a consistência.
Coleta e Armazenamento:
Implementar um processo para coletar os dados de cada fonte, considerando métodos como download manual, extração automática ou APIs. Armazenar os dados em um local seguro e acessível.
library(dplyr)
##
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
##
## filter, lag
## Os seguintes objetos são mascarados por 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
votacao_candidato_munzona_2022_PE <- read.csv2("C:\\Users\\natas\\Downloads\\votacao_candidato_munzona_2022_PE.csv")
votos_ipubi <- filter(votacao_candidato_munzona_2022_PE, NM_MUNICIPIO == "IPUBI")
pie(table(votos_ipubi$QT_VOTOS_NOMINAIS_VALIDOS, votos_ipubi$DS_SIT_TOT_TURNO))
O gráfico demostra os candidatos com mais votos na cidade de Ipubi, que foram as atuais senadora e governadora do estado de Pernambuco, Teresa leitão e Raquel Lyra, respectivamente. Os dados demonstram que a zona eleitoral tem uma grande dispersão de votos nos cargos que há mais candidatos, como os de deputado federal e estadual, o que podemos ver na filtragem dos dados, que nenhum deputado foi muito votado no município, resultando em nenhum deputado com grande cabo eleitoral no município. Esses dados são importantes para podermos oferecer uma análise de dados para os candidatos concentrarem suas forças políticas e camapanham em locais que possuem maior peso político. Esses dados podem ser bastante úteis a nível de pesquisa acadêmica e também para os profissionais de comunicação social e relações públicas, que podem saber onde investir, e ao mesmo tempo captar locais pouco explorados mas que tenham potencial.
Visualização de Dados:
Visualizar os dados brutos usando gráficos e tabelas para identificar padrões, tendências e anomalias. Isso fornece uma compreensão inicial da qualidade e dos problemas potenciais dos dados.
Análise Estatística Descritiva:
Calcular medidas estatísticas descritivas, como média, mediana, desvio padrão, mínimo e máximo, para cada variável. Isso fornece informações sobre a centralidade, dispersão e valores extremos dos dados.
dados_filtrados <- filter(votacao_candidato_munzona_2022_PE, NM_MUNICIPIO == "IPUBI" & DS_SIT_TOT_TURNO == "ELEITO")
summary(dados_filtrados, NM_MUNICIPIO & DS_CARGO & DS_SIT_TOT_TURNO)
## DT_GERACAO HH_GERACAO ANO_ELEICAO CD_TIPO_ELEICAO
## Length:2 Length:2 Min. :2022 Min. :2
## Class :character Class :character 1st Qu.:2022 1st Qu.:2
## Mode :character Mode :character Median :2022 Median :2
## Mean :2022 Mean :2
## 3rd Qu.:2022 3rd Qu.:2
## Max. :2022 Max. :2
## NM_TIPO_ELEICAO NR_TURNO CD_ELEICAO DS_ELEICAO
## Length:2 Min. :1.00 Min. :546.0 Length:2
## Class :character 1st Qu.:1.25 1st Qu.:546.2 Class :character
## Mode :character Median :1.50 Median :546.5 Mode :character
## Mean :1.50 Mean :546.5
## 3rd Qu.:1.75 3rd Qu.:546.8
## Max. :2.00 Max. :547.0
## DT_ELEICAO TP_ABRANGENCIA SG_UF SG_UE
## Length:2 Length:2 Length:2 Length:2
## Class :character Class :character Class :character Class :character
## Mode :character Mode :character Mode :character Mode :character
##
##
##
## NM_UE CD_MUNICIPIO NM_MUNICIPIO NR_ZONA
## Length:2 Min. :24457 Length:2 Min. :133
## Class :character 1st Qu.:24457 Class :character 1st Qu.:133
## Mode :character Median :24457 Mode :character Median :133
## Mean :24457 Mean :133
## 3rd Qu.:24457 3rd Qu.:133
## Max. :24457 Max. :133
## CD_CARGO DS_CARGO SQ_CANDIDATO NR_CANDIDATO
## Min. :3.0 Length:2 Min. :1.7e+11 Min. : 45.00
## 1st Qu.:3.5 Class :character 1st Qu.:1.7e+11 1st Qu.: 66.25
## Median :4.0 Mode :character Median :1.7e+11 Median : 87.50
## Mean :4.0 Mean :1.7e+11 Mean : 87.50
## 3rd Qu.:4.5 3rd Qu.:1.7e+11 3rd Qu.:108.75
## Max. :5.0 Max. :1.7e+11 Max. :130.00
## NM_CANDIDATO NM_URNA_CANDIDATO NM_SOCIAL_CANDIDATO
## Length:2 Length:2 Length:2
## Class :character Class :character Class :character
## Mode :character Mode :character Mode :character
##
##
##
## CD_SITUACAO_CANDIDATURA DS_SITUACAO_CANDIDATURA CD_DETALHE_SITUACAO_CAND
## Min. :12 Length:2 Min. :2
## 1st Qu.:12 Class :character 1st Qu.:2
## Median :12 Mode :character Median :2
## Mean :12 Mean :2
## 3rd Qu.:12 3rd Qu.:2
## Max. :12 Max. :2
## DS_DETALHE_SITUACAO_CAND TP_AGREMIACAO NR_PARTIDO SG_PARTIDO
## Length:2 Length:2 Min. :13 Length:2
## Class :character Class :character 1st Qu.:21 Class :character
## Mode :character Mode :character Median :29 Mode :character
## Mean :29
## 3rd Qu.:37
## Max. :45
## NM_PARTIDO NR_FEDERACAO NM_FEDERACAO SG_FEDERACAO
## Length:2 Min. :1.00 Length:2 Length:2
## Class :character 1st Qu.:1.25 Class :character Class :character
## Mode :character Median :1.50 Mode :character Mode :character
## Mean :1.50
## 3rd Qu.:1.75
## Max. :2.00
## DS_COMPOSICAO_FEDERACAO SQ_COLIGACAO NM_COLIGACAO
## Length:2 Min. :1.7e+11 Length:2
## Class :character 1st Qu.:1.7e+11 Class :character
## Mode :character Median :1.7e+11 Mode :character
## Mean :1.7e+11
## 3rd Qu.:1.7e+11
## Max. :1.7e+11
## DS_COMPOSICAO_COLIGACAO ST_VOTO_EM_TRANSITO QT_VOTOS_NOMINAIS
## Length:2 Length:2 Min. :7013
## Class :character Class :character 1st Qu.:7113
## Mode :character Mode :character Median :7213
## Mean :7213
## 3rd Qu.:7313
## Max. :7413
## NM_TIPO_DESTINACAO_VOTOS QT_VOTOS_NOMINAIS_VALIDOS CD_SIT_TOT_TURNO
## Length:2 Min. :7013 Min. :1
## Class :character 1st Qu.:7113 1st Qu.:1
## Mode :character Median :7213 Median :1
## Mean :7213 Mean :1
## 3rd Qu.:7313 3rd Qu.:1
## Max. :7413 Max. :1
## DS_SIT_TOT_TURNO
## Length:2
## Class :character
## Mode :character
##
##
##
Os dados apresentados mostram quantos canditados o município de Ipubi, no sertão Pernambucano ajudou a eleger. Podemos ver detalhes do cargo pretendido, da situação eleitoral, quantidade de votos e também a situação após o segundo turno. Como medida de segurança e também respeitando as leis eleitorais, não temos dados dos eleitores e em quem votaram, permanecendo assim o princípio do voto secreto.
Identificação de Problemas:
Buscar problemas de dados comuns, como valores ausentes, valores duplicados, outliers, inconsistências de formato e erros de digitação. Isso garante que os dados sejam precisos e confiáveis para análise.
rmarkdown::paged_table(votos_ipubi, options = list(rows.print = 15))
Tratamento de Valores Ausentes:
Tratar valores ausentes de forma adequada, considerando o tipo de dado, a causa da ausência e o impacto na análise. Opções comuns incluem remoção de registros, imputação de valores ou codificação como um valor ausente.
Tratamento de Duplicatas:
Remover registros duplicados com base em identificadores únicos, como IDs de clientes, números de pedidos ou outras chaves primárias. Isso garante que cada registro represente uma entidade única.
Correção de Erros e Inconsistências:
Corrigir erros de digitação, formatação e inconsistências nos dados. Isso garante que os dados sejam precisos e consistentes para análise.