Análise do banco de dados das respostas dos candidatos das eleições municipais de 2020 (vereador, prefeito e vice-prefeito).
Foram concatenados os dados dos bancos de dados dos candidatos no banco BDconcatenado.RData.
Em primeiro lugar vamos apresentar a análise exploratória dos dados com foco em fraude eleitoral.
O banco de dados utilizado foi o BD-Concatenados.RData e as variáveis foram padronizados.
As perguntas a seguir verificam se o respondente realmente foi candidato nas eleições municipais de 2020. Mantemos no banco de dados somente os que responderam “Sim”. A tabela apresenta os candidatos por situação após apuração dos votos.
Na eleição municipal de 2020, o seu nome apareceu registrado na plataforma do Tribunal Superior Eleitoral como candidato. O (a) sr. (a) confirma essa informação?
Resposta
Frequência
Não
241
Não lembro
175
Sim
10064
Totais
Eleito
Não Eleito
Sum
Prefeito e Vice
89
668
757
Vereador
725
8582
9307
Sum
814
9250
10064
Porcentagem (%)
Eleito
Não Eleito
Sum
Prefeito e Vice
1
7
8
Vereador
7
85
92
Sum
8
92
100
2. Respostas do questionário
2.1. Confiança no processo eleitoral
Características
N = 10.1271
No Brasil, o voto é obrigatório. O (a) sr. (a) é a favor ou contra o voto obrigatório?
A favor
4.771 (47.9%)
Indiferente
571 (5.7%)
Contra
4.152 (41.7%)
Prefiro não opinar
474 (4.8%)
Desconhecido
159
O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na Justiça Eleitoral?
Muita confiança
4.720 (47.3%)
Pouca confiança
3.607 (36.1%)
Nenhuma confiança
1.186 (11.9%)
Não sei informar
472 (4.7%)
Desconhecido
142
O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na urna eletrônica?
Muita confiança
4.586 (45.9%)
Pouca confiança
2.983 (29.8%)
Nenhuma confiança
2.149 (21.5%)
Não sei informar
281 (2.8%)
Desconhecido
128
O (a) sr. (a) é a favor ou contra o comprovante impresso do voto?
A favor
6.103 (61.7%)
Indiferente
850 (8.6%)
Contra
2.945 (29.8%)
Prefiro não opinar
0 (0.0%)
Desconhecido
229
1n (%)
2.2. Perguntas de posição
A Figura a seguir apresenta as respostas das peguntas de posição.
2.3. Fraude nas eleições
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?
Características
N = 10.1271
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?
Muita fraude
4.506 (45.5%)
Pouca fraude
2.057 (20.8%)
Nenhuma fraude
1.515 (15.3%)
Não sei informar
1.816 (18.4%)
Desconhecido
233
1n (%)
Nestas análises não vou trabalhar com as perguntas sobre fraude em lista.
A figura a seguir apresenta a distribuição da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude”.
3. Analise multivariada com base na variável fraude
3.1. Fraude versus ideologia (do partido)
Nesta seção modelamos o posicionamento ideológico dos partidos de duas maneira. A primeira pela “ideologia autodeclarada” do partido nas respostas dos candidatos. Ela é calulada pela fórmula
Assim, o posicionamento ideológico do partido \(i\) (eixo x) é dado pela fórmula \[x_i = \sum_{j=1}^5 s_j fr_j,\quad j = 1, \ldots, n_p,\] sendo \(s_j\) o posicionamento, \(fr_j\) a frequência relativa dos respondentes do partido \(i\) que afirmaram que seu partido está na posição ideológica cujo valor é \(s_j\).
A segunda forma de medir ideologia do partido foi pelas perguntas de posição para os candidatos. Assim, discordo: \(c_1 = -1\), discordo em parte: \(c_2 = -0,\!5\), não concordo nem discordo: \(c_3 = 0\), concordo em parte: \(c_4 = 0,\!5\) e concordo: \(c_5 = 1\), \[y_i = \sum_{q=1}^{15} \sum_{j=1}^5 \delta_q c_{qj} fr_{qj},\quad i = 1, \ldots, n_p,\] sendo \(c_{qj}\), o peso da resposta \(q\), \(fr_{qj}\) a frequência da resposta \(q\) e \(n_p\) o número de partidos. O índice \(c_i\) é multiplicado por \(\delta_q\) que vale menos um (-1) se a posição mais a esquerda estiver na respota “Concordo” e vale (1) se a resposta mais a esquerda estiver em “Discordo”.
Por exemplo, \(\delta_1 = -1\) para a pergunta “A mulher deve ter o direito de usar roupa curta sem ser incomodada”, pois “Concordo” é a resposta mais à esquedra. Agora \(\delta_2 = 1\) para a pergunta “O bolsa-família estimula as pessoas a não trabalhar”.
Por fim, o eixo z, revela sobre a percepção sobre fraude eleitoral. As respostas dos candidatos têm os seguintes pesos: muita fraude: \(z_1 = 1\), pouca fraude: \(z_2 = 0\!,5\), nenhuma fraude: \(z_3 = 0\), não sei informar: \(z_4 = 0\),
sendo \(z_j\) a percepção de fraude, \(fr_j\) a frequência relativa de cada partido para a resposta \(z_j\) e \(n_p\) o número de partidos.
A seguir apresentamos a tabela com a classificação (categórica) da ideologia dos partidos pela declaração dos candidatos.
Partido
Posição
30
AVANTE
Centro
16
CIDADANIA
Centro
178
DC
Direita
8
DEM
Direita
3
MDB
Centro
362
NOVO
Direita
39
PATRIOTA
Direita
65
PC do B
Esquerda
961
PCB
Esquerda
7
PDT
Centro
1
PL
Direita
32
PMB
Centro
64
PMN
Centro
12
PODE
Direita
10
PP
Direita
23
PROS
Centro
33
PRTB
Direita
48
PSB
Esquerda
24
PSC
Direita
21
PSD
Direita
5
PSDB
Centro
2
PSL
Direita
84
PSOL
Esquerda
1704
PSTU
Esquerda
35
PT
Esquerda
6
PTB
Direita
133
PTC
Direita
27
PV
Centro
9
REDE
Esquerda
22
REPUBLICANOS
Direita
95
SOLIDARIEDADE
Centro
1534
UP
Esquerda
Pelos modelos a seguir, não temos associação estatística entre posicionamento político dos partidos e a crença na fraude das eleições
Call:
lm(formula = z ~ x + x2 + x3, data = A)
Residuals:
Min 1Q Median 3Q Max
-0.205669 -0.062969 -0.009988 0.047757 0.219331
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.55169 0.02878 19.166 <0.0000000000000002 ***
x 0.08541 0.09685 0.882 0.385
x2 0.06609 0.07733 0.855 0.400
x3 -0.04830 0.15192 -0.318 0.753
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1032 on 28 degrees of freedom
Multiple R-squared: 0.0883, Adjusted R-squared: -0.009385
F-statistic: 0.9039 on 3 and 28 DF, p-value: 0.4516
Start: AIC=-141.62
z ~ x + x2 + x3
Df Sum of Sq RSS AIC
- x3 1 0.0010767 0.29935 -143.50
- x2 1 0.0077820 0.30605 -142.79
- x 1 0.0082848 0.30656 -142.74
<none> 0.29827 -141.62
Step: AIC=-143.5
z ~ x + x2
Df Sum of Sq RSS AIC
- x2 1 0.016091 0.31544 -143.82
<none> 0.29935 -143.50
- x 1 0.025035 0.32438 -142.93
Step: AIC=-143.82
z ~ x
Df Sum of Sq RSS AIC
- x 1 0.011719 0.32716 -144.66
<none> 0.31544 -143.82
Step: AIC=-144.66
z ~ 1
Call:
lm(formula = z ~ 1, data = A)
Coefficients:
(Intercept)
0.5809
Start: AIC=-158.83
z ~ y + y2 + y3
Df Sum of Sq RSS AIC
- y3 1 0.005160 0.17932 -159.90
<none> 0.17416 -158.83
- y2 1 0.031708 0.20586 -155.48
- y 1 0.068209 0.24236 -150.26
Step: AIC=-159.9
z ~ y + y2
Df Sum of Sq RSS AIC
<none> 0.17932 -159.90
- y 1 0.11507 0.29438 -146.03
- y2 1 0.14017 0.31948 -143.42
Call:
lm(formula = z ~ y + y2, data = A)
Coefficients:
(Intercept) y y2
0.4962 0.5683 2.7040
Call:
lm(formula = z ~ y + y2, data = A)
Residuals:
Min 1Q Median 3Q Max
-0.209214 -0.041411 -0.008978 0.033093 0.176825
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.49619 0.02229 22.263 < 0.0000000000000002 ***
y 0.56833 0.13174 4.314 0.00017 ***
y2 2.70398 0.56793 4.761 0.0000493 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.07863 on 29 degrees of freedom
Multiple R-squared: 0.4519, Adjusted R-squared: 0.4141
F-statistic: 11.95 on 2 and 29 DF, p-value: 0.0001635
A Figura a seguir apresenta o posicionamento dos partidos referente a declaração dos candidatos quanto a posição ideológica dos partidos.
3.2 Cruzando fraude com outras variáveis
Na primeira análise, foi solicitado pelo Borba as seguintes análises:
Fazer a marginal por grupos
Fraude, Confiança na Justiça e Confiança na Urna
Vereador versus Prefeito e Vice-Prefeito
Eleito / Não Eleito
Sexo
Escolaridade
Faixa Etária
Na última conversa, adicionei:
JE, confiança na justiça eleitoral
C_URNA, confiança na Urna
Felipe Borba sugeriu colocar uma variável sobre o porte do município (até a mediana e acima da mediana dos eleitores) e posicionamento político (esquerda, centro esquerda, centro, centro-direita e direita). A análise do porde do município vai ficar como trabalho futuro, uma vez que os códigos de município do TSE não batem com os códigos do IBGE.
A variável grau de instrução está definida da forma como segue.
Fundamental: formação até o nível fundamental completo.
Médio: do nível fundamental completo até o nível superior incompleto.
Superior: superior completo ou pós-graduação.
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Prefeito e Vice
Vereador
Muita fraude
48.0
45.3
Não sei informar
8.6
19.2
Nenhuma fraude
14.0
15.4
Pouca fraude
29.4
20.1
Sum
100.0
100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Eleito
Não Eleito
Muita fraude
27.0
47.2
Não sei informar
17.6
18.4
Nenhuma fraude
26.3
14.3
Pouca fraude
29.1
20.1
Sum
100.0
100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
FEMININO
MASCULINO
Muita fraude
51.7
42.8
Não sei informar
20.7
17.3
Nenhuma fraude
12.8
16.4
Pouca fraude
14.8
23.5
Sum
100.0
100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Médio
Fundamental
Superior
Sum
Muita fraude
45.1
53.1
43.5
141.7
Não sei informar
20.7
16.7
16.6
54.0
Nenhuma fraude
14.8
12.3
16.8
43.9
Pouca fraude
19.4
17.8
23.2
60.4
Sum
100.0
99.9
100.1
300.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
(16,29]
(29,59]
(59,100]
Sum
Muita fraude
41.4
46.1
43.8
131.3
Não sei informar
16.6
18.5
18.7
53.8
Nenhuma fraude
18.4
15.2
12.3
45.9
Pouca fraude
23.6
20.1
25.2
68.9
Sum
100.0
99.9
100.0
299.9
4. Modelos de Regressão Linear Generalizado
Nesta seção foi desenvolvido um modelo para dados categóricos dicotômicos, modelo binomial, com função de ligação na escala logarítimica (DOBSON, BARNETT 2008; MCCULLAGH, NELDER, 1999). O objetivo é estudar a associação entre acreditar que existe fraude nas eleições com outras variáveis.
4.1 Modelo M1
Nesta subseção apresentamos os modelos que levem em consideração as características pessoais dos candidatos (sexo, cor, instrução e faixa etária).
Call:
bayesglm(formula = resposta ~ sexo + cor + instrucao + FE, family = binomial(link = "logit"),
data = d)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.587367 0.082044 7.159 0.000000000000812 ***
sexoMasculino -0.003325 0.046500 -0.072 0.9430
corNão branca -0.034221 0.043361 -0.789 0.4300
instrucaoFundamental 0.286055 0.068025 4.205 0.000026092408970 ***
instrucaoSuperior 0.078743 0.046678 1.687 0.0916 .
FE(29,59] 0.037394 0.075251 0.497 0.6192
FE(59,100] 0.157802 0.109151 1.446 0.1483
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 12506 on 9799 degrees of freedom
Residual deviance: 12485 on 9793 degrees of freedom
AIC: 12499
Number of Fisher Scoring iterations: 4
4.2 Modelo M2
Nesta subseção apresentamos o modelo que leva em consideração as características políticas dos candidatos (situação, cargo, confiança na justiça eleitoral, confiança na urna e ideologia do partido).
Call:
bayesglm(formula = resposta ~ situacao + cargo + justica + c_urna +
posicao, family = binomial(link = "logit"), data = d)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.89383 0.13184 14.364 < 0.0000000000000002 ***
situacaoNão Eleito 0.30934 0.07937 3.897 0.00009729040697 ***
cargoVereador -0.65929 0.09397 -7.016 0.00000000000229 ***
justicaNão sabe -1.12451 0.11281 -9.969 < 0.0000000000000002 ***
justicaConfia -0.77030 0.06798 -11.331 < 0.0000000000000002 ***
c_urnaNão sabe -0.79248 0.14246 -5.563 0.00000002655263 ***
c_urnaConfia -0.68782 0.06808 -10.103 < 0.0000000000000002 ***
posicaoCentro -0.07415 0.06337 -1.170 0.242
posicaoDireita -0.04952 0.06124 -0.809 0.419
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 12506 on 9799 degrees of freedom
Residual deviance: 11483 on 9791 degrees of freedom
AIC: 11501
Number of Fisher Scoring iterations: 4
4.3 Modelo Completo - MC
Nesta subseção apresentamos o modelo que leva em consideração todas as variáveis.
O resultado do modelo mostra que as covariáveis que estão associadas à resposta de que houve fraude nas eleições:
a variável Situação, a chance de acreditar que houve fraude para um candidato não eleito é exponencial(0,29) = 1.34, vezes a chance de um candidato eleito acreditar que houve fraude (aumento de 34%), mantendo todos os outros preditores constantes;
a variável Cargo, com redução de exponencial(-0,65) = 0.52 na chance de acreditar que houve fraude de um indivíduo que se candidatou a vereador frente a um indivíduo que se candidatou a Prefeito/Vice Prefeito (ou seja, pouco mais que a metade);
as variáveis Sexo e Cor, não mostraram significância estatística ao nível de 1%;
a variável Nível de Instrução, com exponencial(0,29) = 1.34 a razão de chances de candidatos com até nível fundamental completo sobre candidatos de nível médio (34% a mais), em comparação com o nível fundamental não se mostrou significativo; e
a variável Faixa Etária não mostrou significância estatística.
As variáveis sobre Confiança na Justiça Eleitoral e Confiança na Urna apresentaram significância estatística:
a primeira apresentou razão de chance exponencial(-0,78) = 0.46 a razão de chances de candidatos que tem confiança na justiça eleitoral acreditarem que têm fraude nas eleições frente aos candidatos que não têm confiança na justiça (menos da metade) e
para confiança nas urnas, a razão de chance foi exponencial(-0,695) = 0.5 a razão de chances de candidatos que não tem confiança nas urnas acreditarem que têm fraude nas eleições frente aos candidatos que não têm muita confiança nas urnas (metade da chance).
Esses resultados já eram esperados, uma vez que confiança na justiça eleitoral, confiança nas urnas e fraude nas eleições estão fortemente correlacionadas.
Por fim, para essas análise, a Posição do partido não apresentou significância estatística no modelo.
Vamos usar o Akaike Information Criterion (AIC) como critério de seleção de modelos. Ele baseia-se no princípio da parcimônia no qual o melhor modelo é aquele que tem melhor ajuste, obtido pelo logaritmo da função de verossimilhança, penalizado pelo número de parâmetros. Quanto melhor o modelo menor é o AIC (RAFTERY, 1995; GILL, 2015).
O melhor modelo pelo critério AIC, a partir do comando step() do R, foi o modelo apresentado com todas as covariáveis - este comando faz a combinação das covaríaveis a fim de encontrar o melhor modelo segundo o critério AIC.
4.2 Pós-estratificação
“Poststratification, especially in the context of Multilevel Regression and Poststratification (MRP) as popularized by Gelman, is a technique used in R (and other statistical software) to adjust survey or sample data to better reflect a known population distribution. This is particularly useful when the sample is not perfectly representative of the target population.” (GEMINI do site https://library.virginia.edu/data/articles/getting-started-multilevel-regression-and-poststratification)
A variável dependente é sobre os respondentes da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?”
Codificamos \(y = 1\), se o respondente afirma que há fraude na eleição (Muita ou Pouca Fraude) e \(y = 0\), se o respondente afirma que não há fraude (Nenhuma Fraude) ou se não sabe informar.
situacao cargo n
1 Eleito Prefeito e Vice 6484
2 Não Eleito Prefeito e Vice 20278
3 Eleito Vereador 75149
4 Não Eleito Vereador 582149
Referências
Dobson, A. J. e Barnett, A. G. (2008) An Introduction to Generalized Linear Models. Bocca Raton: CRC Press, terceira ed.
Gamerman, D. e Lopes, H. F. (2006) Markov Chain Monte Carlo: stochastic simulation for Bayesian Inference. Boca Raton - Londres - Nova Iorque: Chapman & Hall / CRC, segunda ed.
Gelman, Andrew, and Jennifer Hill. 2006. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge university press.
Gelman, Andrew, Jennifer Hill, and Aki Vehtari. 2020. Regression and Other Stories. Cambridge University Press.
Gelman, A. (2016) The problems with p-values are not just with p-values. The American Statistician, Online Discussion, 1, 1-2. URL: http://www.stat.columbia.edu/ ~gelman/research/published/asa_pvalues.pdf.
Gill, J. (2015) Bayesian Methods: A Social and Behavioral Sciences Approach. terceira. Boca Raton: CRC Press.
McCullagh P., Nelder, J. A. (1999) Generalized Linear Models. Londres: Chapman & Hall / CRC, segunda ed.
McElreath, Richard. 2020. Statistical Rethinking: A Bayesian Course with Examples in r and Stan. CRC press.
Migon, H. S., Gamerman, D. e Louzada, F. (2015) Statistical Inference: an integrated approach. Londres: Chapman & Hall / CRC, segunda ed.
Raftery A. (1995) Bayesian model selection in social research. Sociological Methodology, v. 25, p. 111–165.