2025 ANPOCS - Fraude Eleitoral

Autor

ISRAEL, V. P.

Data de Publicação

10 de setembro de 2025

1. Introdução

  • Análise do banco de dados das respostas dos candidatos das eleições municipais de 2020 (vereador, prefeito e vice-prefeito).

  • Foram concatenados os dados dos bancos de dados dos candidatos no banco BDconcatenado.RData.

  • Em primeiro lugar vamos apresentar a análise exploratória dos dados com foco em fraude eleitoral.

O banco de dados utilizado foi o BD-Concatenados.RData e as variáveis foram padronizados.

As perguntas a seguir verificam se o respondente realmente foi candidato nas eleições municipais de 2020. Mantemos no banco de dados somente os que responderam “Sim”. A tabela apresenta os candidatos por situação após apuração dos votos.

Na eleição municipal de 2020, o seu nome apareceu registrado na plataforma do Tribunal Superior Eleitoral como candidato. O (a) sr. (a) confirma essa informação?
Resposta Frequência
Não 241
Não lembro 175
Sim 10064
Totais
Eleito Não Eleito Sum
Prefeito e Vice 89 668 757
Vereador 725 8582 9307
Sum 814 9250 10064
Porcentagem (%)
Eleito Não Eleito Sum
Prefeito e Vice 1 7 8
Vereador 7 85 92
Sum 8 92 100

2. Respostas do questionário

2.1. Confiança no processo eleitoral

Características

N = 10.1271

No Brasil, o voto é obrigatório. O (a) sr. (a) é a favor ou contra o voto obrigatório?

A favor

4.771 (47.9%)

Indiferente

571 (5.7%)

Contra

4.152 (41.7%)

Prefiro não opinar

474 (4.8%)

Desconhecido

159

O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na Justiça Eleitoral?

Muita confiança

4.720 (47.3%)

Pouca confiança

3.607 (36.1%)

Nenhuma confiança

1.186 (11.9%)

Não sei informar

472 (4.7%)

Desconhecido

142

O (a) sr. (a) diria que tem muita confiança, pouca confiança ou nenhuma confiança na urna eletrônica?

Muita confiança

4.586 (45.9%)

Pouca confiança

2.983 (29.8%)

Nenhuma confiança

2.149 (21.5%)

Não sei informar

281 (2.8%)

Desconhecido

128

O (a) sr. (a) é a favor ou contra o comprovante impresso do voto?

A favor

6.103 (61.7%)

Indiferente

850 (8.6%)

Contra

2.945 (29.8%)

Prefiro não opinar

0 (0.0%)

Desconhecido

229

1n (%)

2.2. Perguntas de posição

A Figura a seguir apresenta as respostas das peguntas de posição.

2.3. Fraude nas eleições

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?

Características

N = 10.1271

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?

Muita fraude

4.506 (45.5%)

Pouca fraude

2.057 (20.8%)

Nenhuma fraude

1.515 (15.3%)

Não sei informar

1.816 (18.4%)

Desconhecido

233

1n (%)

Nestas análises não vou trabalhar com as perguntas sobre fraude em lista.

A figura a seguir apresenta a distribuição da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude”.

3. Analise multivariada com base na variável fraude

3.1. Fraude versus ideologia (do partido)

Nesta seção modelamos o posicionamento ideológico dos partidos de duas maneira. A primeira pela “ideologia autodeclarada” do partido nas respostas dos candidatos. Ela é calulada pela fórmula

esquerda: \(s_1 = -1\), centro-esquerda: \(s_2 = -0,\!5\), centro: \(s_3 = 0\), centro-direita: \(s_4 = 0,\!5\) e direita: \(s_5 = 1\).

Assim, o posicionamento ideológico do partido \(i\) (eixo x) é dado pela fórmula \[x_i = \sum_{j=1}^5 s_j fr_j,\quad j = 1, \ldots, n_p,\] sendo \(s_j\) o posicionamento, \(fr_j\) a frequência relativa dos respondentes do partido \(i\) que afirmaram que seu partido está na posição ideológica cujo valor é \(s_j\).

A segunda forma de medir ideologia do partido foi pelas perguntas de posição para os candidatos. Assim, discordo: \(c_1 = -1\), discordo em parte: \(c_2 = -0,\!5\), não concordo nem discordo: \(c_3 = 0\), concordo em parte: \(c_4 = 0,\!5\) e concordo: \(c_5 = 1\), \[y_i = \sum_{q=1}^{15} \sum_{j=1}^5 \delta_q c_{qj} fr_{qj},\quad i = 1, \ldots, n_p,\] sendo \(c_{qj}\), o peso da resposta \(q\), \(fr_{qj}\) a frequência da resposta \(q\) e \(n_p\) o número de partidos. O índice \(c_i\) é multiplicado por \(\delta_q\) que vale menos um (-1) se a posição mais a esquerda estiver na respota “Concordo” e vale (1) se a resposta mais a esquerda estiver em “Discordo”.

Por exemplo, \(\delta_1 = -1\) para a pergunta “A mulher deve ter o direito de usar roupa curta sem ser incomodada”, pois “Concordo” é a resposta mais à esquedra. Agora \(\delta_2 = 1\) para a pergunta “O bolsa-família estimula as pessoas a não trabalhar”.

Por fim, o eixo z, revela sobre a percepção sobre fraude eleitoral. As respostas dos candidatos têm os seguintes pesos: muita fraude: \(z_1 = 1\), pouca fraude: \(z_2 = 0\!,5\), nenhuma fraude: \(z_3 = 0\), não sei informar: \(z_4 = 0\),

O eixo z é dado pela fórmula:

\(z_i = \sum_{j=1}^5 z_j fr_j,\quad j = 1, \ldots, n_p,\)

sendo \(z_j\) a percepção de fraude, \(fr_j\) a frequência relativa de cada partido para a resposta \(z_j\) e \(n_p\) o número de partidos.

A seguir apresentamos a tabela com a classificação (categórica) da ideologia dos partidos pela declaração dos candidatos.

Partido Posição
30 AVANTE Centro
16 CIDADANIA Centro
178 DC Direita
8 DEM Direita
3 MDB Centro
362 NOVO Direita
39 PATRIOTA Direita
65 PC do B Esquerda
961 PCB Esquerda
7 PDT Centro
1 PL Direita
32 PMB Centro
64 PMN Centro
12 PODE Direita
10 PP Direita
23 PROS Centro
33 PRTB Direita
48 PSB Esquerda
24 PSC Direita
21 PSD Direita
5 PSDB Centro
2 PSL Direita
84 PSOL Esquerda
1704 PSTU Esquerda
35 PT Esquerda
6 PTB Direita
133 PTC Direita
27 PV Centro
9 REDE Esquerda
22 REPUBLICANOS Direita
95 SOLIDARIEDADE Centro
1534 UP Esquerda

Pelos modelos a seguir, não temos associação estatística entre posicionamento político dos partidos e a crença na fraude das eleições


Call:
lm(formula = z ~ x + x2 + x3, data = A)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.205669 -0.062969 -0.009988  0.047757  0.219331 

Coefficients:
            Estimate Std. Error t value            Pr(>|t|)    
(Intercept)  0.55169    0.02878  19.166 <0.0000000000000002 ***
x            0.08541    0.09685   0.882               0.385    
x2           0.06609    0.07733   0.855               0.400    
x3          -0.04830    0.15192  -0.318               0.753    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.1032 on 28 degrees of freedom
Multiple R-squared:  0.0883,    Adjusted R-squared:  -0.009385 
F-statistic: 0.9039 on 3 and 28 DF,  p-value: 0.4516
Start:  AIC=-141.62
z ~ x + x2 + x3

       Df Sum of Sq     RSS     AIC
- x3    1 0.0010767 0.29935 -143.50
- x2    1 0.0077820 0.30605 -142.79
- x     1 0.0082848 0.30656 -142.74
<none>              0.29827 -141.62

Step:  AIC=-143.5
z ~ x + x2

       Df Sum of Sq     RSS     AIC
- x2    1  0.016091 0.31544 -143.82
<none>              0.29935 -143.50
- x     1  0.025035 0.32438 -142.93

Step:  AIC=-143.82
z ~ x

       Df Sum of Sq     RSS     AIC
- x     1  0.011719 0.32716 -144.66
<none>              0.31544 -143.82

Step:  AIC=-144.66
z ~ 1

Call:
lm(formula = z ~ 1, data = A)

Coefficients:
(Intercept)  
     0.5809  
Start:  AIC=-158.83
z ~ y + y2 + y3

       Df Sum of Sq     RSS     AIC
- y3    1  0.005160 0.17932 -159.90
<none>              0.17416 -158.83
- y2    1  0.031708 0.20586 -155.48
- y     1  0.068209 0.24236 -150.26

Step:  AIC=-159.9
z ~ y + y2

       Df Sum of Sq     RSS     AIC
<none>              0.17932 -159.90
- y     1   0.11507 0.29438 -146.03
- y2    1   0.14017 0.31948 -143.42

Call:
lm(formula = z ~ y + y2, data = A)

Coefficients:
(Intercept)            y           y2  
     0.4962       0.5683       2.7040  

Call:
lm(formula = z ~ y + y2, data = A)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.209214 -0.041411 -0.008978  0.033093  0.176825 

Coefficients:
            Estimate Std. Error t value             Pr(>|t|)    
(Intercept)  0.49619    0.02229  22.263 < 0.0000000000000002 ***
y            0.56833    0.13174   4.314              0.00017 ***
y2           2.70398    0.56793   4.761            0.0000493 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 0.07863 on 29 degrees of freedom
Multiple R-squared:  0.4519,    Adjusted R-squared:  0.4141 
F-statistic: 11.95 on 2 and 29 DF,  p-value: 0.0001635

A Figura a seguir apresenta o posicionamento dos partidos referente a declaração dos candidatos quanto a posição ideológica dos partidos.

3.2 Cruzando fraude com outras variáveis

Na primeira análise, foi solicitado pelo Borba as seguintes análises:

  • Fazer a marginal por grupos
  • Fraude, Confiança na Justiça e Confiança na Urna
  • Vereador versus Prefeito e Vice-Prefeito
  • Eleito / Não Eleito
  • Sexo
  • Escolaridade
  • Faixa Etária

Na última conversa, adicionei:

  • JE, confiança na justiça eleitoral
  • C_URNA, confiança na Urna

Felipe Borba sugeriu colocar uma variável sobre o porte do município (até a mediana e acima da mediana dos eleitores) e posicionamento político (esquerda, centro esquerda, centro, centro-direita e direita). A análise do porde do município vai ficar como trabalho futuro, uma vez que os códigos de município do TSE não batem com os códigos do IBGE.

A variável grau de instrução está definida da forma como segue.
Fundamental: formação até o nível fundamental completo.
Médio: do nível fundamental completo até o nível superior incompleto.
Superior: superior completo ou pós-graduação.

Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Prefeito e Vice Vereador
Muita fraude 48.0 45.3
Não sei informar 8.6 19.2
Nenhuma fraude 14.0 15.4
Pouca fraude 29.4 20.1
Sum 100.0 100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Eleito Não Eleito
Muita fraude 27.0 47.2
Não sei informar 17.6 18.4
Nenhuma fraude 26.3 14.3
Pouca fraude 29.1 20.1
Sum 100.0 100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
FEMININO MASCULINO
Muita fraude 51.7 42.8
Não sei informar 20.7 17.3
Nenhuma fraude 12.8 16.4
Pouca fraude 14.8 23.5
Sum 100.0 100.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
Médio Fundamental Superior Sum
Muita fraude 45.1 53.1 43.5 141.7
Não sei informar 20.7 16.7 16.6 54.0
Nenhuma fraude 14.8 12.3 16.8 43.9
Pouca fraude 19.4 17.8 23.2 60.4
Sum 100.0 99.9 100.1 300.0
Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude? (%)
(16,29] (29,59] (59,100] Sum
Muita fraude 41.4 46.1 43.8 131.3
Não sei informar 16.6 18.5 18.7 53.8
Nenhuma fraude 18.4 15.2 12.3 45.9
Pouca fraude 23.6 20.1 25.2 68.9
Sum 100.0 99.9 100.0 299.9

4. Modelos de Regressão Linear Generalizado

Nesta seção foi desenvolvido um modelo para dados categóricos dicotômicos, modelo binomial, com função de ligação na escala logarítimica (DOBSON, BARNETT 2008; MCCULLAGH, NELDER, 1999). O objetivo é estudar a associação entre acreditar que existe fraude nas eleições com outras variáveis.

4.1 Modelo M1

Nesta subseção apresentamos os modelos que levem em consideração as características pessoais dos candidatos (sexo, cor, instrução e faixa etária).


Call:
bayesglm(formula = resposta ~ sexo + cor + instrucao + FE, family = binomial(link = "logit"), 
    data = d)

Coefficients:
                      Estimate Std. Error z value          Pr(>|z|)    
(Intercept)           0.587367   0.082044   7.159 0.000000000000812 ***
sexoMasculino        -0.003325   0.046500  -0.072            0.9430    
corNão branca        -0.034221   0.043361  -0.789            0.4300    
instrucaoFundamental  0.286055   0.068025   4.205 0.000026092408970 ***
instrucaoSuperior     0.078743   0.046678   1.687            0.0916 .  
FE(29,59]             0.037394   0.075251   0.497            0.6192    
FE(59,100]            0.157802   0.109151   1.446            0.1483    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 12485  on 9793  degrees of freedom
AIC: 12499

Number of Fisher Scoring iterations: 4

4.2 Modelo M2

Nesta subseção apresentamos o modelo que leva em consideração as características políticas dos candidatos (situação, cargo, confiança na justiça eleitoral, confiança na urna e ideologia do partido).


Call:
bayesglm(formula = resposta ~ situacao + cargo + justica + c_urna + 
    posicao, family = binomial(link = "logit"), data = d)

Coefficients:
                   Estimate Std. Error z value             Pr(>|z|)    
(Intercept)         1.89383    0.13184  14.364 < 0.0000000000000002 ***
situacaoNão Eleito  0.30934    0.07937   3.897     0.00009729040697 ***
cargoVereador      -0.65929    0.09397  -7.016     0.00000000000229 ***
justicaNão sabe    -1.12451    0.11281  -9.969 < 0.0000000000000002 ***
justicaConfia      -0.77030    0.06798 -11.331 < 0.0000000000000002 ***
c_urnaNão sabe     -0.79248    0.14246  -5.563     0.00000002655263 ***
c_urnaConfia       -0.68782    0.06808 -10.103 < 0.0000000000000002 ***
posicaoCentro      -0.07415    0.06337  -1.170                0.242    
posicaoDireita     -0.04952    0.06124  -0.809                0.419    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 11483  on 9791  degrees of freedom
AIC: 11501

Number of Fisher Scoring iterations: 4

4.3 Modelo Completo - MC

Nesta subseção apresentamos o modelo que leva em consideração todas as variáveis.


Call:
bayesglm(formula = resposta ~ situacao + cargo + sexo + cor + 
    instrucao + FE + justica + c_urna + posicao, family = binomial(link = "logit"), 
    data = d)

Coefficients:
                     Estimate Std. Error z value             Pr(>|z|)    
(Intercept)           1.94170    0.16654  11.659 < 0.0000000000000002 ***
situacaoNão Eleito    0.29393    0.08036   3.658             0.000255 ***
cargoVereador        -0.65443    0.09614  -6.807     0.00000000000997 ***
sexoMasculino        -0.11167    0.04995  -2.236             0.025371 *  
corNão branca         0.05569    0.04599   1.211             0.225976    
instrucaoFundamental  0.29013    0.07216   4.020     0.00005807565576 ***
instrucaoSuperior     0.18177    0.05024   3.618             0.000297 ***
FE(29,59]            -0.10467    0.07926  -1.321             0.186616    
FE(59,100]           -0.15071    0.11607  -1.298             0.194124    
justicaNão sabe      -1.16377    0.11368 -10.237 < 0.0000000000000002 ***
justicaConfia        -0.78324    0.06837 -11.456 < 0.0000000000000002 ***
c_urnaNão sabe       -0.81174    0.14298  -5.677     0.00000001367987 ***
c_urnaConfia         -0.69596    0.06868 -10.134 < 0.0000000000000002 ***
posicaoCentro        -0.06300    0.06364  -0.990             0.322211    
posicaoDireita       -0.04342    0.06151  -0.706             0.480256    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 12506  on 9799  degrees of freedom
Residual deviance: 11454  on 9785  degrees of freedom
AIC: 11484

Number of Fisher Scoring iterations: 4
bayesglm(formula = resposta ~ situacao + cargo + sexo + cor + 
    instrucao + FE + justica + c_urna + posicao, family = binomial(link = "logit"), 
    data = d)
                     coef.est coef.se
(Intercept)           1.94     0.17  
situacaoNão Eleito    0.29     0.08  
cargoVereador        -0.65     0.10  
sexoMasculino        -0.11     0.05  
corNão branca         0.06     0.05  
instrucaoFundamental  0.29     0.07  
instrucaoSuperior     0.18     0.05  
FE(29,59]            -0.10     0.08  
FE(59,100]           -0.15     0.12  
justicaNão sabe      -1.16     0.11  
justicaConfia        -0.78     0.07  
c_urnaNão sabe       -0.81     0.14  
c_urnaConfia         -0.70     0.07  
posicaoCentro        -0.06     0.06  
posicaoDireita       -0.04     0.06  
---
n = 9800, k = 15
residual deviance = 11453.8, null deviance = 12506.4 (difference = 1052.6)

O resultado do modelo mostra que as covariáveis que estão associadas à resposta de que houve fraude nas eleições:

  • a variável Situação, a chance de acreditar que houve fraude para um candidato não eleito é exponencial(0,29) = 1.34, vezes a chance de um candidato eleito acreditar que houve fraude (aumento de 34%), mantendo todos os outros preditores constantes;

  • a variável Cargo, com redução de exponencial(-0,65) = 0.52 na chance de acreditar que houve fraude de um indivíduo que se candidatou a vereador frente a um indivíduo que se candidatou a Prefeito/Vice Prefeito (ou seja, pouco mais que a metade);

  • as variáveis Sexo e Cor, não mostraram significância estatística ao nível de 1%;

  • a variável Nível de Instrução, com exponencial(0,29) = 1.34 a razão de chances de candidatos com até nível fundamental completo sobre candidatos de nível médio (34% a mais), em comparação com o nível fundamental não se mostrou significativo; e

  • a variável Faixa Etária não mostrou significância estatística.

As variáveis sobre Confiança na Justiça Eleitoral e Confiança na Urna apresentaram significância estatística:

  • a primeira apresentou razão de chance exponencial(-0,78) = 0.46 a razão de chances de candidatos que tem confiança na justiça eleitoral acreditarem que têm fraude nas eleições frente aos candidatos que não têm confiança na justiça (menos da metade) e

  • para confiança nas urnas, a razão de chance foi exponencial(-0,695) = 0.5 a razão de chances de candidatos que não tem confiança nas urnas acreditarem que têm fraude nas eleições frente aos candidatos que não têm muita confiança nas urnas (metade da chance).

Esses resultados já eram esperados, uma vez que confiança na justiça eleitoral, confiança nas urnas e fraude nas eleições estão fortemente correlacionadas.

Por fim, para essas análise, a Posição do partido não apresentou significância estatística no modelo.

Vamos usar o Akaike Information Criterion (AIC) como critério de seleção de modelos. Ele baseia-se no princípio da parcimônia no qual o melhor modelo é aquele que tem melhor ajuste, obtido pelo logaritmo da função de verossimilhança, penalizado pelo número de parâmetros. Quanto melhor o modelo menor é o AIC (RAFTERY, 1995; GILL, 2015).

step(mc)
Start:  AIC=11483.8
resposta ~ situacao + cargo + sexo + cor + instrucao + FE + justica + 
    c_urna + posicao

            Df Deviance   AIC
- posicao    2    11455 11481
- FE         2    11456 11482
- cor        1    11455 11483
<none>            11454 11484
- sexo       1    11459 11487
- situacao   1    11467 11495
- instrucao  2    11476 11502
- cargo      1    11504 11532
- c_urna     2    11571 11597
- justica    2    11642 11668
Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor

Step:  AIC=11480.8
resposta ~ situacao + cargo + sexo + cor + instrucao + FE + justica + 
    c_urna

            Df Deviance   AIC
- FE         2    11457 11479
- cor        1    11456 11480
<none>            11455 11481
- sexo       1    11460 11484
- situacao   1    11469 11493
- instrucao  2    11477 11499
- cargo      1    11505 11529
- c_urna     2    11572 11594
- justica    2    11644 11666
Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor

Step:  AIC=11478.97
resposta ~ situacao + cargo + sexo + cor + instrucao + justica + 
    c_urna

            Df Deviance   AIC
- cor        1    11459 11479
<none>            11457 11479
- sexo       1    11462 11482
- situacao   1    11471 11491
- instrucao  2    11478 11496
- cargo      1    11506 11526
- c_urna     2    11573 11591
- justica    2    11646 11664
Warning in model.matrixBayes(object = mt, data = data, contrasts.arg =
contrasts, : variable 'sexo' converted to a factor

Step:  AIC=11478.64
resposta ~ situacao + cargo + sexo + instrucao + justica + c_urna

            Df Deviance   AIC
<none>            11459 11479
- sexo       1    11464 11482
- situacao   1    11473 11491
- instrucao  2    11479 11495
- cargo      1    11508 11526
- c_urna     2    11575 11591
- justica    2    11647 11663

Call:  bayesglm(formula = resposta ~ situacao + cargo + sexo + instrucao + 
    justica + c_urna, family = binomial(link = "logit"), data = d)

Coefficients:
         (Intercept)    situacaoNão Eleito         cargoVereador  
              1.8058                0.3042               -0.6429  
       sexoMasculino  instrucaoFundamental     instrucaoSuperior  
             -0.1105                0.2849                0.1662  
     justicaNão sabe         justicaConfia        c_urnaNão sabe  
             -1.1618               -0.7794               -0.8014  
        c_urnaConfia  
             -0.6796  

Degrees of Freedom: 9799 Total (i.e. Null);  9790 Residual
Null Deviance:      12510 
Residual Deviance: 11460    AIC: 11480

O melhor modelo pelo critério AIC, a partir do comando step() do R, foi o modelo apresentado com todas as covariáveis - este comando faz a combinação das covaríaveis a fim de encontrar o melhor modelo segundo o critério AIC.

4.2 Pós-estratificação

“Poststratification, especially in the context of Multilevel Regression and Poststratification (MRP) as popularized by Gelman, is a technique used in R (and other statistical software) to adjust survey or sample data to better reflect a known population distribution. This is particularly useful when the sample is not perfectly representative of the target population.” (GEMINI do site https://library.virginia.edu/data/articles/getting-started-multilevel-regression-and-poststratification)

A variável dependente é sobre os respondentes da pergunta: “Na sua opinião, as eleições para prefeito possuem muita fraude, pouca fraude ou nenhuma fraude?”

Codificamos \(y = 1\), se o respondente afirma que há fraude na eleição (Muita ou Pouca Fraude) e \(y = 0\), se o respondente afirma que não há fraude (Nenhuma Fraude) ou se não sabe informar.

library(rstanarm)

# Variável resposta
## fraude
# Variáveis independentes
## situação e cargo

#mstan <- stan_glmer(resposta ~ (1|sexo) + (1|situacao) + #(1|justica) + (1|c_urna) + x, 
#                family = binomial, data = d,
#                prior = normal(0, 1, autoscale = TRUE),
#                prior_covariance = decov(scale = 0.50),
#                adapt_delta = 0.99,
#                refresh = 0,
#                seed = 1010)
                
#summary(mstan)

A seguir apresenta-se o resultado do modelo com prioris informativas para garantir convergência dos parâmetros.

#print(mstan)

Vamos usar o pacote electionsBR para obter a matriz das quantidades em cada célula.

load("PosEstratificacao.RDATA")

bdt$situacao = factor(bdt$ds_sit_totalizacao)
bdt$cargo = factor(bdt$cargo)

tb = table(bdt$situacao, bdt$cargo)
tb = tb[-c(1),]
poststrat_df = data.frame(tb)
names(poststrat_df) = c('situacao', 'cargo','n')
poststrat_df
    situacao           cargo      n
1     Eleito Prefeito e Vice   6484
2 Não Eleito Prefeito e Vice  20278
3     Eleito        Vereador  75149
4 Não Eleito        Vereador 582149

Referências

Dobson, A. J. e Barnett, A. G. (2008) An Introduction to Generalized Linear Models. Bocca Raton: CRC Press, terceira ed.

Gamerman, D. e Lopes, H. F. (2006) Markov Chain Monte Carlo: stochastic simulation for Bayesian Inference. Boca Raton - Londres - Nova Iorque: Chapman & Hall / CRC, segunda ed.

Gelman, Andrew, and Jennifer Hill. 2006. Data Analysis Using Regression and Multilevel/Hierarchical Models. Cambridge university press.

Gelman, Andrew, Jennifer Hill, and Aki Vehtari. 2020. Regression and Other Stories. Cambridge University Press.

Gelman, A. (2016) The problems with p-values are not just with p-values. The American Statistician, Online Discussion, 1, 1-2. URL: http://www.stat.columbia.edu/ ~gelman/research/published/asa_pvalues.pdf.

Gill, J. (2015) Bayesian Methods: A Social and Behavioral Sciences Approach. terceira. Boca Raton: CRC Press.

McCullagh P., Nelder, J. A. (1999) Generalized Linear Models. Londres: Chapman & Hall / CRC, segunda ed.

McElreath, Richard. 2020. Statistical Rethinking: A Bayesian Course with Examples in r and Stan. CRC press.

Migon, H. S., Gamerman, D. e Louzada, F. (2015) Statistical Inference: an integrated approach. Londres: Chapman & Hall / CRC, segunda ed.

Raftery A. (1995) Bayesian model selection in social research. Sociological Methodology, v. 25, p. 111–165.