2025 ANPOCS - Fraude Eleitoral

Autor

ISRAEL, V. P.

Data de Publicação

10 de setembro de 2025

1. Introdução

Análise do banco de dados das respostas dos candidatos das eleições municipais de 2020 (vereador, prefeito e vice-prefeito).
Foram concatenados os dados dos bancos de dados dos candidatos no banco BDconcatenado.RData.
Em primeiro lugar vamos apresentar a análise exploratória dos dados com foco em fraude eleitoral.

O banco de dados utilizado foi o BD-Concatenados.RData e as variáveis foram padronizados.

As perguntas a seguir verificam se o respondente realmente foi candidato nas eleições municipais de 2020. Mantemos no banco de dados somente os que responderam “Sim”. A tabela apresenta os candidatos por situação após apuração dos votos.

Na eleição municipal de 2020, o seu nome apareceu registrado na plataforma do Tribunal Superior Eleitoral como candidato. O (a) sr. (a) confirma essa informação?
Resposta	Frequência
Não	241
Não lembro	175
Sim	10064

Totais
	Eleito	Não Eleito	Sum
Prefeito e Vice	89	668	757
Vereador	725	8582	9307
Sum	814	9250	10064

Porcentagem (%)
	Eleito	Não Eleito	Sum
Prefeito e Vice	1	7	8
Vereador	7	85	92
Sum	8	92	100

2. Respostas do questionário

2.1. Confiança no processo eleitoral

Características	N = 10.1271
No Brasil, o voto é obrigatório. O (a) sr. (a) é a favor ou contra o voto obrigatório?
A favor	4.771 (47.9%)
Indiferente	571 (5.7%)
Contra	4.152 (41.7%)
Prefiro não opinar	474 (4.8%)
Desconhecido	159
O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na Justiça Eleitoral?
Muita confiança	4.720 (47.3%)
Pouca confiança	3.607 (36.1%)
Nenhuma confiança	1.186 (11.9%)
Não sei informar	472 (4.7%)
Desconhecido	142
O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na urna eletrônica?
Muita confiança	4.586 (45.9%)
Pouca confiança	2.983 (29.8%)
Nenhuma confiança	2.149 (21.5%)
Não sei informar	281 (2.8%)
Desconhecido	128
O (a) sr. (a) é a favor ou contra o comprovante impresso do voto?
A favor	6.103 (61.7%)
Indiferente	850 (8.6%)
Contra	2.945 (29.8%)
Prefiro não opinar	0 (0.0%)
Desconhecido	229
1n (%)

2.2. Perguntas de posição

A Figura a seguir apresenta as respostas das peguntas de posição.

2.3. Fraude nas eleições

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?

Características	N = 10.1271
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?
Muita fraude	4.506 (45.5%)
Pouca fraude	2.057 (20.8%)
Nenhuma fraude	1.515 (15.3%)
Não sei informar	1.816 (18.4%)
Desconhecido	233
1n (%)

Nestas análises não vou trabalhar com as perguntas sobre fraude em lista.

A figura a seguir apresenta a distribuição da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude”.

3. Analise multivariada com base na variável fraude

3.1. Fraude versus ideologia (do partido)

Nesta seção modelamos o posicionamento ideológico dos partidos de duas maneira. A primeira pela “ideologia autodeclarada” do partido nas respostas dos candidatos. Ela é calulada pela fórmula

esquerda: \(s_1 = -1\), centro-esquerda: \(s_2 = -0,\!5\), centro: \(s_3 = 0\), centro-direita: \(s_4 = 0,\!5\) e direita: \(s_5 = 1\).

Assim, o posicionamento ideológico do partido \(i\) (eixo x) é dado pela fórmula \[x_i = \sum_{j=1}^5 s_j fr_j,\quad j = 1, \ldots, n_p,\] sendo \(s_j\) o posicionamento, \(fr_j\) a frequência relativa dos respondentes do partido \(i\) que afirmaram que seu partido está na posição ideológica cujo valor é \(s_j\).

A segunda forma de medir ideologia do partido foi pelas perguntas de posição para os candidatos. Assim, discordo: \(c_1 = -1\), discordo em parte: \(c_2 = -0,\!5\), não concordo nem discordo: \(c_3 = 0\), concordo em parte: \(c_4 = 0,\!5\) e concordo: \(c_5 = 1\), \[y_i = \sum_{q=1}^{15} \sum_{j=1}^5 \delta_q c_{qj} fr_{qj},\quad i = 1, \ldots, n_p,\] sendo \(c_{qj}\), o peso da resposta \(q\), \(fr_{qj}\) a frequência da resposta \(q\) e \(n_p\) o número de partidos. O índice \(c_i\) é multiplicado por \(\delta_q\) que vale menos um (-1) se a posição mais a esquerda estiver na respota “Concordo” e vale (1) se a resposta mais a esquerda estiver em “Discordo”.

Por exemplo, \(\delta_1 = -1\) para a pergunta “A mulher deve ter o direito de usar roupa curta sem ser incomodada”, pois “Concordo” é a resposta mais à esquedra. Agora \(\delta_2 = 1\) para a pergunta “O bolsa-família estimula as pessoas a não trabalhar”.

Por fim, o eixo z, revela sobre a percepção sobre fraude eleitoral. As respostas dos candidatos têm os seguintes pesos: muita fraude: \(z_1 = 1\), pouca fraude: \(z_2 = 0\!,5\), nenhuma fraude: \(z_3 = 0\), não sei informar: \(z_4 = 0\),

O eixo z é dado pela fórmula:

\(z_i = \sum_{j=1}^5 z_j fr_j,\quad j = 1, \ldots, n_p,\)

sendo \(z_j\) a percepção de fraude, \(fr_j\) a frequência relativa de cada partido para a resposta \(z_j\) e \(n_p\) o número de partidos.

A seguir apresentamos a tabela com a classificação (categórica) da ideologia dos partidos pela declaração dos candidatos.

	Partido	Posição
30	AVANTE	Centro
16	CIDADANIA	Centro
178	DC	Direita
8	DEM	Direita
3	MDB	Centro
362	NOVO	Direita
39	PATRIOTA	Direita
65	PC do B	Esquerda
961	PCB	Esquerda
7	PDT	Centro
1	PL	Direita
32	PMB	Centro
64	PMN	Centro
12	PODE	Direita
10	PP	Direita
23	PROS	Centro
33	PRTB	Direita
48	PSB	Esquerda
24	PSC	Direita
21	PSD	Direita
5	PSDB	Centro
2	PSL	Direita
84	PSOL	Esquerda
1704	PSTU	Esquerda
35	PT	Esquerda
6	PTB	Direita
133	PTC	Direita
27	PV	Centro
9	REDE	Esquerda
22	REPUBLICANOS	Direita
95	SOLIDARIEDADE	Centro
1534	UP	Esquerda

Pelos modelos a seguir, não temos associação estatística entre posicionamento político dos partidos e a crença na fraude das eleições


Call:
lm(formula = z ~ x + x2 + x3, data = A)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.205669 -0.062969 -0.009988  0.047757  0.219331 

Coefficients:
            Estimate Std. Error t value            Pr(>|t|)    
(Intercept)  0.55169    0.02878  19.166 <0.0000000000000002 ***
x            0.08541    0.09685   0.882               0.385    
x2           0.06609    0.07733   0.855               0.400    
x3          -0.04830    0.15192  -0.318               0.753    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1032 on 28 degrees of freedom
Multiple R-squared:  0.0883,    Adjusted R-squared:  -0.009385 
F-statistic: 0.9039 on 3 and 28 DF,  p-value: 0.4516

Start:  AIC=-141.62
z ~ x + x2 + x3

       Df Sum of Sq     RSS     AIC
- x3    1 0.0010767 0.29935 -143.50
- x2    1 0.0077820 0.30605 -142.79
- x     1 0.0082848 0.30656 -142.74
<none>              0.29827 -141.62

Step:  AIC=-143.5
z ~ x + x2

       Df Sum of Sq     RSS     AIC
- x2    1  0.016091 0.31544 -143.82
<none>              0.29935 -143.50
- x     1  0.025035 0.32438 -142.93

Step:  AIC=-143.82
z ~ x

       Df Sum of Sq     RSS     AIC
- x     1  0.011719 0.32716 -144.66
<none>              0.31544 -143.82

Step:  AIC=-144.66
z ~ 1


Call:
lm(formula = z ~ 1, data = A)

Coefficients:
(Intercept)  
     0.5809

Start:  AIC=-158.83
z ~ y + y2 + y3

       Df Sum of Sq     RSS     AIC
- y3    1  0.005160 0.17932 -159.90
<none>              0.17416 -158.83
- y2    1  0.031708 0.20586 -155.48
- y     1  0.068209 0.24236 -150.26

Step:  AIC=-159.9
z ~ y + y2

       Df Sum of Sq     RSS     AIC
<none>              0.17932 -159.90
- y     1   0.11507 0.29438 -146.03
- y2    1   0.14017 0.31948 -143.42


Call:
lm(formula = z ~ y + y2, data = A)

Coefficients:
(Intercept)            y           y2  
     0.4962       0.5683       2.7040


Call:
lm(formula = z ~ y + y2, data = A)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.209214 -0.041411 -0.008978  0.033093  0.176825 

Coefficients:
            Estimate Std. Error t value             Pr(>|t|)    
(Intercept)  0.49619    0.02229  22.263 < 0.0000000000000002 ***
y            0.56833    0.13174   4.314              0.00017 ***
y2           2.70398    0.56793   4.761            0.0000493 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.07863 on 29 degrees of freedom
Multiple R-squared:  0.4519,    Adjusted R-squared:  0.4141 
F-statistic: 11.95 on 2 and 29 DF,  p-value: 0.0001635

A Figura a seguir apresenta o posicionamento dos partidos referente a declaração dos candidatos quanto a posição ideológica dos partidos.

3.2 Cruzando fraude com outras variáveis

Na primeira análise, foi solicitado pelo Borba as seguintes análises:

Fazer a marginal por grupos
Fraude, Confiança na Justiça e Confiança na Urna
Vereador versus Prefeito e Vice-Prefeito
Eleito / Não Eleito
Sexo
Escolaridade
Faixa Etária

Na última conversa, adicionei:

JE, confiança na justiça eleitoral
C_URNA, confiança na Urna

Felipe Borba sugeriu colocar uma variável sobre o porte do município (até a mediana e acima da mediana dos eleitores) e posicionamento político (esquerda, centro esquerda, centro, centro-direita e direita). A análise do porde do município vai ficar como trabalho futuro, uma vez que os códigos de município do TSE não batem com os códigos do IBGE.

A variável grau de instrução está definida da forma como segue.
Fundamental: formação até o nível fundamental completo.
Médio: do nível fundamental completo até o nível superior incompleto.
Superior: superior completo ou pós-graduação.

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
	Prefeito e Vice	Vereador
Muita fraude	48.0	45.3
Não sei informar	8.6	19.2
Nenhuma fraude	14.0	15.4
Pouca fraude	29.4	20.1
Sum	100.0	100.0

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
	Eleito	Não Eleito
Muita fraude	27.0	47.2
Não sei informar	17.6	18.4
Nenhuma fraude	26.3	14.3
Pouca fraude	29.1	20.1
Sum	100.0	100.0

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
	FEMININO	MASCULINO
Muita fraude	51.7	42.8
Não sei informar	20.7	17.3
Nenhuma fraude	12.8	16.4
Pouca fraude	14.8	23.5
Sum	100.0	100.0

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
	Médio	Fundamental	Superior	Sum
Muita fraude	45.1	53.1	43.5	141.7
Não sei informar	20.7	16.7	16.6	54.0
Nenhuma fraude	14.8	12.3	16.8	43.9
Pouca fraude	19.4	17.8	23.2	60.4
Sum	100.0	99.9	100.1	300.0

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
	(16,29]	(29,59]	(59,100]	Sum
Muita fraude	41.4	46.1	43.8	131.3
Não sei informar	16.6	18.5	18.7	53.8
Nenhuma fraude	18.4	15.2	12.3	45.9
Pouca fraude	23.6	20.1	25.2	68.9
Sum	100.0	99.9	100.0	299.9

4. Modelos de Regressão Linear Generalizado

Nesta seção foi desenvolvido um modelo para dados categóricos dicotômicos, modelo binomial, com função de ligação na escala logarítimica (DOBSON, BARNETT 2008; MCCULLAGH, NELDER, 1999). O objetivo é estudar a associação entre acreditar que existe fraude nas eleições com outras variáveis.

4.1 Modelo M1

Nesta subseção apresentamos os modelos que levem em consideração as características pessoais dos candidatos (sexo, cor, instrução e faixa etária).


Call:
bayesglm(formula = resposta ~ sexo + cor + instrucao + FE, family = binomial(link = "logit"), 
    data = d)

Coefficients:
                      Estimate Std. Error z value          Pr(>|z|)    
(Intercept)           0.587367   0.082044   7.159 0.000000000000812 ***
sexoMasculino        -0.003325   0.046500  -0.072            0.9430    
corNão branca        -0.034221   0.043361  -0.789            0.4300    
instrucaoFundamental  0.286055   0.068025   4.205 0.000026092408970 ***
instrucaoSuperior     0.078743   0.046678   1.687            0.0916 .  
FE(29,59]             0.037394   0.075251   0.497            0.6192    
FE(59,100]            0.157802   0.109151   1.446            0.1483    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 12485  on 9793  degrees of freedom
AIC: 12499

Number of Fisher Scoring iterations: 4

4.2 Modelo M2

Nesta subseção apresentamos o modelo que leva em consideração as características políticas dos candidatos (situação, cargo, confiança na justiça eleitoral, confiança na urna e ideologia do partido).


Call:
bayesglm(formula = resposta ~ situacao + cargo + justica + c_urna + 
    posicao, family = binomial(link = "logit"), data = d)

Coefficients:
                   Estimate Std. Error z value             Pr(>|z|)    
(Intercept)         1.89383    0.13184  14.364 < 0.0000000000000002 ***
situacaoNão Eleito  0.30934    0.07937   3.897     0.00009729040697 ***
cargoVereador      -0.65929    0.09397  -7.016     0.00000000000229 ***
justicaNão sabe    -1.12451    0.11281  -9.969 < 0.0000000000000002 ***
justicaConfia      -0.77030    0.06798 -11.331 < 0.0000000000000002 ***
c_urnaNão sabe     -0.79248    0.14246  -5.563     0.00000002655263 ***
c_urnaConfia       -0.68782    0.06808 -10.103 < 0.0000000000000002 ***
posicaoCentro      -0.07415    0.06337  -1.170                0.242    
posicaoDireita     -0.04952    0.06124  -0.809                0.419    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 11483  on 9791  degrees of freedom
AIC: 11501

Number of Fisher Scoring iterations: 4

4.3 Modelo Completo - MC

Nesta subseção apresentamos o modelo que leva em consideração todas as variáveis.


Call:
bayesglm(formula = resposta ~ situacao + cargo + sexo + cor + 
    instrucao + FE + justica + c_urna + posicao, family = binomial(link = "logit"), 
    data = d)

Coefficients:
                     Estimate Std. Error z value             Pr(>|z|)    
(Intercept)           1.94170    0.16654  11.659 < 0.0000000000000002 ***
situacaoNão Eleito    0.29393    0.08036   3.658             0.000255 ***
cargoVereador        -0.65443    0.09614  -6.807     0.00000000000997 ***
sexoMasculino        -0.11167    0.04995  -2.236             0.025371 *  
corNão branca         0.05569    0.04599   1.211             0.225976    
instrucaoFundamental  0.29013    0.07216   4.020     0.00005807565576 ***
instrucaoSuperior     0.18177    0.05024   3.618             0.000297 ***
FE(29,59]            -0.10467    0.07926  -1.321             0.186616    
FE(59,100]           -0.15071    0.11607  -1.298             0.194124    
justicaNão sabe      -1.16377    0.11368 -10.237 < 0.0000000000000002 ***
justicaConfia        -0.78324    0.06837 -11.456 < 0.0000000000000002 ***
c_urnaNão sabe       -0.81174    0.14298  -5.677     0.00000001367987 ***
c_urnaConfia         -0.69596    0.06868 -10.134 < 0.0000000000000002 ***
posicaoCentro        -0.06300    0.06364  -0.990             0.322211    
posicaoDireita       -0.04342    0.06151  -0.706             0.480256    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 11454  on 9785  degrees of freedom
AIC: 11484

Number of Fisher Scoring iterations: 4

bayesglm(formula = resposta ~ situacao + cargo + sexo + cor + 
    instrucao + FE + justica + c_urna + posicao, family = binomial(link = "logit"), 
    data = d)
                     coef.est coef.se
(Intercept)           1.94     0.17  
situacaoNão Eleito    0.29     0.08  
cargoVereador        -0.65     0.10  
sexoMasculino        -0.11     0.05  
corNão branca         0.06     0.05  
instrucaoFundamental  0.29     0.07  
instrucaoSuperior     0.18     0.05  
FE(29,59]            -0.10     0.08  
FE(59,100]           -0.15     0.12  
justicaNão sabe      -1.16     0.11  
justicaConfia        -0.78     0.07  
c_urnaNão sabe       -0.81     0.14  
c_urnaConfia         -0.70     0.07  
posicaoCentro        -0.06     0.06  
posicaoDireita       -0.04     0.06  
---
n = 9800, k = 15
residual deviance = 11453.8, null deviance = 12506.4 (difference = 1052.6)

O resultado do modelo mostra que as covariáveis que estão associadas à resposta de que houve fraude nas eleições:

a variável Situação, a chance de acreditar que houve fraude para um candidato não eleito é exponencial(0,29) = 1.34, vezes a chance de um candidato eleito acreditar que houve fraude (aumento de 34%), mantendo todos os outros preditores constantes;
a variável Cargo, com redução de exponencial(-0,65) = 0.52 na chance de acreditar que houve fraude de um indivíduo que se candidatou a vereador frente a um indivíduo que se candidatou a Prefeito/Vice Prefeito (ou seja, pouco mais que a metade);
as variáveis Sexo e Cor, não mostraram significância estatística ao nível de 1%;
a variável Nível de Instrução, com exponencial(0,29) = 1.34 a razão de chances de candidatos com até nível fundamental completo sobre candidatos de nível médio (34% a mais), em comparação com o nível fundamental não se mostrou significativo; e
a variável Faixa Etária não mostrou significância estatística.

As variáveis sobre Confiança na Justiça Eleitoral e Confiança na Urna apresentaram significância estatística:

a primeira apresentou razão de chance exponencial(-0,78) = 0.46 a razão de chances de candidatos que tem confiança na justiça eleitoral acreditarem que têm fraude nas eleições frente aos candidatos que não têm confiança na justiça (menos da metade) e
para confiança nas urnas, a razão de chance foi exponencial(-0,695) = 0.5 a razão de chances de candidatos que não tem confiança nas urnas acreditarem que têm fraude nas eleições frente aos candidatos que não têm muita confiança nas urnas (metade da chance).

Esses resultados já eram esperados, uma vez que confiança na justiça eleitoral, confiança nas urnas e fraude nas eleições estão fortemente correlacionadas.

Por fim, para essas análise, a Posição do partido não apresentou significância estatística no modelo.

Vamos usar o Akaike Information Criterion (AIC) como critério de seleção de modelos. Ele baseia-se no princípio da parcimônia no qual o melhor modelo é aquele que tem melhor ajuste, obtido pelo logaritmo da função de verossimilhança, penalizado pelo número de parâmetros. Quanto melhor o modelo menor é o AIC (RAFTERY, 1995; GILL, 2015).

step(mc)

Start:  AIC=11483.8
resposta ~ situacao + cargo + sexo + cor + instrucao + FE + justica + 
    c_urna + posicao

            Df Deviance   AIC
- posicao    2    11455 11481
- FE         2    11456 11482
- cor        1    11455 11483
<none>            11454 11484
- sexo       1    11459 11487
- situacao   1    11467 11495
- instrucao  2    11476 11502
- cargo      1    11504 11532
- c_urna     2    11571 11597
- justica    2    11642 11668

Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor


Step:  AIC=11480.8
resposta ~ situacao + cargo + sexo + cor + instrucao + FE + justica + 
    c_urna

            Df Deviance   AIC
- FE         2    11457 11479
- cor        1    11456 11480
<none>            11455 11481
- sexo       1    11460 11484
- situacao   1    11469 11493
- instrucao  2    11477 11499
- cargo      1    11505 11529
- c_urna     2    11572 11594
- justica    2    11644 11666

Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor


Step:  AIC=11478.97
resposta ~ situacao + cargo + sexo + cor + instrucao + justica + 
    c_urna

            Df Deviance   AIC
- cor        1    11459 11479
<none>            11457 11479
- sexo       1    11462 11482
- situacao   1    11471 11491
- instrucao  2    11478 11496
- cargo      1    11506 11526
- c_urna     2    11573 11591
- justica    2    11646 11664

Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor


Step:  AIC=11478.64
resposta ~ situacao + cargo + sexo + instrucao + justica + c_urna

            Df Deviance   AIC
<none>            11459 11479
- sexo       1    11464 11482
- situacao   1    11473 11491
- instrucao  2    11479 11495
- cargo      1    11508 11526
- c_urna     2    11575 11591
- justica    2    11647 11663


Call:  bayesglm(formula = resposta ~ situacao + cargo + sexo + instrucao + 
    justica + c_urna, family = binomial(link = "logit"), data = d)

Coefficients:
         (Intercept)    situacaoNão Eleito         cargoVereador  
              1.8058                0.3042               -0.6429  
       sexoMasculino  instrucaoFundamental     instrucaoSuperior  
             -0.1105                0.2849                0.1662  
     justicaNão sabe         justicaConfia        c_urnaNão sabe  
             -1.1618               -0.7794               -0.8014  
        c_urnaConfia  
             -0.6796  

Degrees of Freedom: 9799 Total (i.e. Null);  9790 Residual
Null Deviance:      12510 
Residual Deviance: 11460    AIC: 11480

O melhor modelo pelo critério AIC, a partir do comando step() do R, foi o modelo apresentado com todas as covariáveis - este comando faz a combinação das covaríaveis a fim de encontrar o melhor modelo segundo o critério AIC.

4.2 Pós-estratificação

“Poststratification, especially in the context of Multilevel Regression and Poststratification (MRP) as popularized by Gelman, is a technique used in R (and other statistical software) to adjust survey or sample data to better reflect a known population distribution. This is particularly useful when the sample is not perfectly representative of the target population.” (GEMINI do site https://library.virginia.edu/data/articles/getting-started-multilevel-regression-and-poststratification)

A variável dependente é sobre os respondentes da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?”

Codificamos \(y = 1\), se o respondente afirma que há fraude na eleição (Muita ou Pouca Fraude) e \(y = 0\), se o respondente afirma que não há fraude (Nenhuma Fraude) ou se não sabe informar.

library(rstanarm)

# Variável resposta
## fraude
# Variáveis independentes
## situação e cargo

#mstan <- stan_glmer(resposta ~ (1|sexo) + (1|situacao) + #(1|justica) + (1|c_urna) + x, 
#                family = binomial, data = d,
#                prior = normal(0, 1, autoscale = TRUE),
#                prior_covariance = decov(scale = 0.50),
#                adapt_delta = 0.99,
#                refresh = 0,
#                seed = 1010)
                
#summary(mstan)

A seguir apresenta-se o resultado do modelo com prioris informativas para garantir convergência dos parâmetros.

#print(mstan)

Vamos usar o pacote electionsBR para obter a matriz das quantidades em cada célula.

load("PosEstratificacao.RDATA")

bdt$situacao = factor(bdt$ds_sit_totalizacao)
bdt$cargo = factor(bdt$cargo)

tb = table(bdt$situacao, bdt$cargo)
tb = tb[-c(1),]
poststrat_df = data.frame(tb)
names(poststrat_df) = c('situacao', 'cargo','n')
poststrat_df

    situacao           cargo      n
1     Eleito Prefeito e Vice   6484
2 Não Eleito Prefeito e Vice  20278
3     Eleito        Vereador  75149
4 Não Eleito        Vereador 582149

Referências

Dobson, A. J. e Barnett, A. G. (2008) An Introduction to Generalized Linear Models. Bocca Raton: CRC Press, terceira ed.

Gamerman, D. e Lopes, H. F. (2006) Markov Chain Monte Carlo: stochastic simulation for Bayesian Inference. Boca Raton - Londres - Nova Iorque: Chapman & Hall / CRC, segunda ed.

Gelman, Andrew, and Jennifer Hill. 2006. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge university press.

Gelman, Andrew, Jennifer Hill, and Aki Vehtari. 2020. Regression and Other Stories. Cambridge University Press.

Gelman, A. (2016) The problems with p-values are not just with p-values. The American Statistician, Online Discussion, 1, 1-2. URL: http://www.stat.columbia.edu/ ~gelman/research/published/asa_pvalues.pdf.

Gill, J. (2015) Bayesian Methods: A Social and Behavioral Sciences Approach. terceira. Boca Raton: CRC Press.

McCullagh P., Nelder, J. A. (1999) Generalized Linear Models. Londres: Chapman & Hall / CRC, segunda ed.

McElreath, Richard. 2020. Statistical Rethinking: A Bayesian Course with Examples in r and Stan. CRC press.

Migon, H. S., Gamerman, D. e Louzada, F. (2015) Statistical Inference: an integrated approach. Londres: Chapman & Hall / CRC, segunda ed.

Raftery A. (1995) Bayesian model selection in social research. Sociological Methodology, v. 25, p. 111–165.