Introdução

Esta análise será feita utilizando dados sobre as votações que candidatos à Câmara Federal de Deputados receberam nos anos de 2006 e 2010. Desse modo, será utilizado Regressão Linear para explicar essas votações. Logo abaixo será respondido 5 perguntas tomando como base os dados fornecidos

Antes de tudo, será importado as nossas bibliotecas que serão utilizadas para a plotagem das análises para responder as perguntas.

Logo após, será importado a nossa base de dados, sendo elas: eleicoes2006 (dados das eleições de 2006), eleicoes2010 (dados das eleições de 2010) e por fim eleicoes2006_2010 (dados das eleições de 2006 e 2010).

eleicoes2006 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2006.csv")
eleicoes2010 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2010.csv")
eleicoes2006_2010 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2006_e_2010.csv")

Antes de partir para as perguntas, é necessário entender o que cada coluna da nossa base de dados significa:

Após entender as variáveis disponíveis, será feito uma verificação se há ausência de dados nas tabelas: * 2006

missmap(eleicoes2006)

missmap(eleicoes2010)

*2006 e 2010 missmap(eleicoes2006_2010)

missmap(eleicoes2006_2010)

Através dos três gráficos acima, pode-se confirmar que não há nenhum dado faltando nas três tabelas. Sendo assim, podemos seguir em frente com a nossa análise.

Perguntas

1 - Um modelo de regressão múltipla com todas as variáveis é plausível para explicar a variação em y (número de votos) em 2006? Mesma pergunta para 2010.

  • 2006 Não, pois algumas variáveis que estão nos dados evidentemente não possuem relação como o número de votos e também são categoricas. Por esse motivo as seguintes variáveis foram removidas:

  • cargo
  • sequencial_candidato
  • nome

eleicoes2006_rm <- eleicoes2006 %>%
   select(-c(cargo, sequencial_candidato, nome))

Mesmo assim, ainda podem existir variáveis que não são boas preditoras, mas que não foram retiradas. Desse modo, gerou-se um modelo para verificar isso tornando possível observar a importância de cada variável no modelo resultante

modelo2006 <- lm(votos~., data = eleicoes2006_rm)
glance(modelo2006)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.578         0.549 30545.      19.9       0   222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No momento, é interessante que se atente à variável “r.squared” que tem o valor de 0.5778645.

anova(modelo2006)
## Analysis of Variance Table
## 
## Response: votos
##                                         Df     Sum Sq    Mean Sq   F value
## uf                                      26 1.9846e+11 7.6329e+09    8.1813
## partido                                 28 7.8920e+11 2.8186e+10   30.2104
## quantidade_doacoes                       1 1.1279e+12 1.1279e+12 1208.9146
## quantidade_doadores                      1 1.7282e+10 1.7282e+10   18.5231
## total_receita                            1 1.2684e+12 1.2684e+12 1359.5283
## media_receita                            1 1.4433e+11 1.4433e+11  154.6970
## recursos_de_outros_candidatos.comites    1 3.2991e+09 3.2991e+09    3.5361
## recursos_de_pessoas_fisicas              1 3.4729e+10 3.4729e+10   37.2238
## recursos_de_pessoas_juridicas            1 8.8225e+10 8.8225e+10   94.5625
## recursos_proprios                        1 4.2737e+09 4.2737e+09    4.5807
## quantidade_despesas                      1 5.8131e+10 5.8131e+10   62.3073
## quantidade_fornecedores                  1 2.5174e+09 2.5174e+09    2.6983
## total_despesa                            1 1.0411e+11 1.0411e+11  111.5870
## media_despesa                            1 2.0730e+09 2.0730e+09    2.2219
## sexo                                     1 2.0785e+09 2.0785e+09    2.2278
## grau                                     6 7.2530e+09 1.2088e+09    1.2957
## estado_civil                             4 1.2601e+09 3.1502e+08    0.3377
## ocupacao                               144 2.5130e+11 1.7451e+09    1.8705
## Residuals                             3214 2.9986e+12 9.3298e+08          
##                                          Pr(>F)    
## uf                                    < 2.2e-16 ***
## partido                               < 2.2e-16 ***
## quantidade_doacoes                    < 2.2e-16 ***
## quantidade_doadores                   1.729e-05 ***
## total_receita                         < 2.2e-16 ***
## media_receita                         < 2.2e-16 ***
## recursos_de_outros_candidatos.comites   0.06014 .  
## recursos_de_pessoas_fisicas           1.179e-09 ***
## recursos_de_pessoas_juridicas         < 2.2e-16 ***
## recursos_proprios                       0.03241 *  
## quantidade_despesas                   3.997e-15 ***
## quantidade_fornecedores                 0.10055    
## total_despesa                         < 2.2e-16 ***
## media_despesa                           0.13616    
## sexo                                    0.13565    
## grau                                    0.25548    
## estado_civil                            0.85271    
## ocupacao                              3.983e-09 ***
## Residuals                                          
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Após analisar a tabela acima, pode-se notar que algumas variáveis tem p-valor > 0.05, dessa forma, não tem muita significância para o nosso modelo de dados, são elas: * recursos_de_outros_candidatos * quantidade_fornecedores * media_despesa * sexo * grau * estado_civil

Sendo assim, é possível afirmar que um modelo de regressão linear com todas as variáveis não é plausível para explicar a variação do número de votos em 2006.

  • 2010 Não, pois algumas variáveis que estão nos dados evidentemente não possuem relação como o número de votos e também são categoricas. Por esse motivo as seguintes variáveis foram removidas:

  • cargo
  • sequencial_candidato
  • nome

eleicoes2010_rm <- eleicoes2010 %>%
   select(-c(cargo, sequencial_candidato, nome))

Mesmo assim, ainda podem existir variáveis que não são boas preditoras, mas que não foram retiradas. Desse modo, gerou-se um modelo para verificar isso tornando possível observar a importância de cada variável no modelo resultante

modelo2010 <- lm(votos~., data = eleicoes2010_rm)
glance(modelo2010)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.541         0.513 34587.      19.6       0   230 -47837. 96136.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No momento, é interessante que se atente à variável “r.squared” que tem o valor de 0.5405282.

anova(modelo2010)
## Analysis of Variance Table
## 
## Response: votos
##                                         Df     Sum Sq    Mean Sq   F value
## uf                                      26 2.2711e+11 8.7349e+09    7.3017
## partido                                 26 1.0530e+12 4.0500e+10   33.8552
## quantidade_doacoes                       1 4.9125e+11 4.9125e+11  410.6436
## quantidade_doadores                      1 3.1724e+10 3.1724e+10   26.5189
## total_receita                            1 2.5149e+12 2.5149e+12 2102.2577
## media_receita                            1 1.2681e+10 1.2681e+10   10.6007
## recursos_de_outros_candidatos.comites    1 4.6985e+10 4.6985e+10   39.2755
## recursos_de_pessoas_fisicas              1 5.8902e+10 5.8902e+10   49.2372
## recursos_de_pessoas_juridicas            1 2.7507e+10 2.7507e+10   22.9939
## recursos_proprios                        1 4.8877e+10 4.8877e+10   40.8572
## recursos_de_partido_politico             1 7.7882e+06 7.7882e+06    0.0065
## quantidade_despesas                      1 3.1002e+10 3.1002e+10   25.9152
## quantidade_fornecedores                  1 3.5029e+09 3.5029e+09    2.9282
## total_despesa                            1 8.3297e+10 8.3297e+10   69.6301
## media_despesa                            1 4.8708e+09 4.8708e+09    4.0716
## sexo                                     1 3.9112e+09 3.9112e+09    3.2695
## grau                                     6 6.8017e+10 1.1336e+10    9.4761
## estado_civil                             4 1.1412e+10 2.8530e+09    2.3849
## ocupacao                               153 6.4294e+11 4.2022e+09    3.5127
## Residuals                             3810 4.5578e+12 1.1963e+09          
##                                          Pr(>F)    
## uf                                    < 2.2e-16 ***
## partido                               < 2.2e-16 ***
## quantidade_doacoes                    < 2.2e-16 ***
## quantidade_doadores                   2.742e-07 ***
## total_receita                         < 2.2e-16 ***
## media_receita                           0.00114 ** 
## recursos_de_outros_candidatos.comites 4.090e-10 ***
## recursos_de_pessoas_fisicas           2.673e-12 ***
## recursos_de_pessoas_juridicas         1.687e-06 ***
## recursos_proprios                     1.836e-10 ***
## recursos_de_partido_politico            0.93570    
## quantidade_despesas                   3.740e-07 ***
## quantidade_fornecedores                 0.08713 .  
## total_despesa                         < 2.2e-16 ***
## media_despesa                           0.04368 *  
## sexo                                    0.07066 .  
## grau                                  2.343e-10 ***
## estado_civil                            0.04913 *  
## ocupacao                              < 2.2e-16 ***
## Residuals                                          
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Após analisar a tabela acima, pode-se notar que algumas variáveis tem p-valor > 0.05, dessa forma, não tem muita significância para o nosso modelo de dados, são elas: * recursos_de_partido_politico * quantidade_fornecedores * sexo

Sendo assim, é possível afirmar que um modelo de regressão linear com todas as variáveis não é plausível para explicar a variação do número de votos em 2010.

2 - Compare as regressões construídas para 2006 e 2010. Quais as diferenças/semelhanças percebidas? Algumas sugestões:

2.1 - Analise os plots de resíduos e verifique se há tendências nos erros para cada ano.

  • 2006
ggplot(modelo2006, aes(x = predict(modelo2006), y = residuals(modelo2006))) +
  geom_point(color= "darkblue") + 
  xlab("Predict") + 
  ylab("Residuals")

Após a plotagem do gráfico, percebemos que os resíduos são assimétrico e que por mais que tenha alguns pontos distantes, ainda há uma aglomeração que significa um padrão de comportamento, ou seja, não são aleatórios. Isso significa que o modelo não é ideal e que faltam transformações ou interações entre as variáveis.

  • 2010
ggplot(modelo2010, aes(x = predict(modelo2010), y = residuals(modelo2010))) +
  geom_point(color= "darkred") + 
  xlab("Predict") + 
  ylab("Residuals")

Após a plotagem do gráfico, percebemos que os resíduos são assimétrico e que por mais que tenha alguns pontos distantes, ainda há uma aglomeração que significa um padrão de comportamento, ou seja, não são aleatórios. Isso significa que o modelo não é ideal e que faltam transformações ou interações entre as variáveis.

2.2 - Quais variáveis conseguem explicar melhor o número de votos? Compare essas variáveis entre os modelos. Mesma coisa para as variáveis menos explicativas.

Para responder a pergunta utilizaremos os valores de R² para comparar os modelos.

  • 2006
eleicoes2006_melhor <- eleicoes2006_rm %>%
  select(-uf)

modeloMelhorado2006 <- lm(votos~., data = eleicoes2006_melhor)

glance(modeloMelhorado2006)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.564         0.538 30914.      21.5       0   196 -40299. 80992.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No modelo acima foi retirado a variável “uf” que tem bastante significância para o modelo.

eleicoes2006_pior <- eleicoes2006_rm %>%
  select(-sexo)

modeloPiorado2006 <- lm(votos~., data = eleicoes2006_pior)

glance(modeloPiorado2006)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.578         0.549 30540.      20.0       0   221 -40244. 80932.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No modelo acima foi retirado a variável “sexo” que tem pouca significância para o modelo.

glance(modelo2006)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.578         0.549 30545.      19.9       0   222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca1 = glance(modelo2006)$adj.r.squared - glance(modeloMelhorado2006)$adj.r.squared
diferenca2 = glance(modelo2006)$adj.r.squared - glance(modeloPiorado2006)$adj.r.squared

Observamos que a diferença do valor do R² ajustado é de 0.011 entre o primeiro modelo e o modelo original, já a diferença entre o segundo modelo e o original é de 0, logo podemos dizer que quando retira a variável “uf” temos mudanças mais significantes, do que quando retira-se a variável “sexo”.

  • 2010
eleicoes2010_melhor <- eleicoes2010_rm %>%
  select(-partido)

modeloMelhorado2010 <- lm(votos~., data = eleicoes2010_melhor)

glance(modeloMelhorado2010)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.532         0.507 34792.      21.5       0   204 -47875. 96159.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No modelo acima foi retirado a variável “partido” que tem bastante significância para o modelo.

eleicoes2010_pior <- eleicoes2010_rm %>%
  select(-quantidade_fornecedores)

modeloPiorado2010 <- lm(votos~., data = eleicoes2010_pior)

glance(modeloPiorado2010)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.540         0.512 34607.      19.6       0   229 -47840. 96140.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>

No modelo acima foi retirado a variável “quantidade_fornecedores” que tem pouca significância para o modelo.

glance(modelo2010)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.541         0.513 34587.      19.6       0   230 -47837. 96136.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca3 = glance(modelo2010)$adj.r.squared - glance(modeloMelhorado2010)$adj.r.squared
diferenca4 = glance(modelo2010)$adj.r.squared - glance(modeloPiorado2010)$adj.r.squared

Observamos que a diferença do valor do R² ajustado é de 0.006 entre o primeiro modelo e o modelo original, já a diferença entre o segundo modelo e o original é de 0.001, logo podemos dizer que quando retira a variável “partido” temos mudanças mais significantes, do que quando retira-se a variável “quantidade_fornecedores”.

3 - Todas as variáveis são úteis para os modelos de regressão? Há variáveis redudantes? Faça análises para 2006 e 2010 separadamente.

  • 2006
eleicoes2006_cor <- eleicoes2006_rm %>%
  select(-c(quantidade_doadores, estado_civil, ano))

Para responder a pergunta, é preciso observar a correlação entre as variáveis.

No entanto temos algumas variáveis do tipo factor, neste caso vamos convertê-las para inteiro para que seja possível calcular correlação dela com as demais variáveis.

dadosCorrelacao2006 <- eleicoes2006_cor %>%
  mutate(uf = as.numeric(uf)) %>%
  mutate(partido = as.numeric(partido)) %>%
  mutate(sexo = as.numeric(sexo)) %>%
  mutate(grau = as.numeric(grau)) %>%
  mutate(ocupacao = as.numeric(ocupacao))
## Warning: package 'bindrcpp' was built under R version 3.4.4
  round(2)
## [1] 2
ggpairs(dadosCorrelacao2006, axisLabels = "none")

Observamos uma alta correlação entre “total_despesa” e “total_receita” (0,982) e também entre “total_despesa” e “recursos_de_pessoas_juridicas” (0,888), por isso iremos remover a variável “total_despesa”.

As demais variáveis possuem correlação linear moderada ou baixa e em função disso serão mantidas.

  • 2010
eleicoes2010_cor <- eleicoes2010_rm %>%
  select(-c(quantidade_doadores, estado_civil, ano))

Para responder a pergunta, é preciso observar a correlação entre as variáveis.

No entanto temos algumas variáveis do tipo factor, neste caso vamos convertê-las para inteiro para que seja possível calcular correlação dela com as demais variáveis.

dadosCorrelacao2010 <- eleicoes2010_cor %>%
  mutate(uf = as.numeric(uf)) %>%
  mutate(partido = as.numeric(partido)) %>%
  mutate(sexo = as.numeric(sexo)) %>%
  mutate(grau = as.numeric(grau)) %>%
  mutate(ocupacao = as.numeric(ocupacao))
  round(2)
## [1] 2
ggpairs(dadosCorrelacao2010, axisLabels = "none")

Observamos uma alta correlação entre “total_despesa” e “total_receita” (0,99) e também entre “total_despesa” e “recursos_de_pessoas_juridicas” (0,83), por isso iremos remover a variável “total_despesa”.

As demais variáveis possuem correlação linear moderada ou baixa e em função disso serão mantidas.

4 - No caso de haver variáveis pouco explicativas e/ou redudantes, construa um novo modelo sem essas variáveis e o compare ao modelo com todas as variáveis (e.g. em termos de R2 e RSE). Faça isso para 2006 e 2010 separadamente.

eleicoesRS2 <- eleicoes2006_rm %>%
  select(-total_despesa)

modeloRS2 <- lm(votos~., data = eleicoesRS2)

glance(modeloRS2)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.565         0.535 31012.      19.0       0   221 -40297. 81038.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
glance(modelo2006)
## # A tibble: 1 x 11
##   r.squared adj.r.squared  sigma statistic p.value    df  logLik    AIC
## *     <dbl>         <dbl>  <dbl>     <dbl>   <dbl> <int>   <dbl>  <dbl>
## 1     0.578         0.549 30545.      19.9       0   222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca = glance(modelo2006)$adj.r.squared - glance(modeloRS2)$adj.r.squared

round(diferenca,3)
## [1] 0.014

Acredito que, considerando que a taxa de aumento de erro e de diminuição do R² ajustado foi baixa (0.014), então a retirada da variável total_despesa não acarretou em mudanças muito drásticas no modelo.

5 - Construa agora uma regressão considerando os anos 2006 e 2010 em conjunto. Que diferenças/semelhanças você percebe em relação aos modelos individuais por ano? Veja a questão 2 para sugestões que você usar para comparação.

eleicoes <- eleicoes2006_2010  %>% select(-c(nome, sequencial_candidato, cargo, ano, ocupacao, uf))

modelo_novo <- lm(data = eleicoes, votos ~., na.action = na.omit)

modelo_novo %>%   summary()
## 
## Call:
## lm(formula = votos ~ ., data = eleicoes, na.action = na.omit)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -325910  -11474   -4532    1880 1261518 
## 
## Coefficients: (1 not defined because of singularities)
##                                         Estimate Std. Error t value
## (Intercept)                            5.298e+02  3.546e+03   0.149
## partidoPAN                            -4.051e+03  5.562e+03  -0.728
## partidoPC do B                         6.227e+03  4.029e+03   1.545
## partidoPCB                            -8.095e+03  1.004e+04  -0.806
## partidoPCO                            -5.023e+03  1.234e+04  -0.407
## partidoPDT                             8.718e+02  3.270e+03   0.267
## partidoPFL                             2.058e+04  3.893e+03   5.285
## partidoPHS                            -4.315e+03  3.747e+03  -1.152
## partidoPL                              7.604e+03  4.027e+03   1.888
## partidoPMDB                            1.055e+04  3.201e+03   3.297
## partidoPMN                            -2.993e+03  3.611e+03  -0.829
## partidoPP                              1.186e+04  3.463e+03   3.425
## partidoPPS                             2.934e+02  3.472e+03   0.085
## partidoPR                              1.876e+04  4.184e+03   4.485
## partidoPRB                             3.305e+03  4.341e+03   0.762
## partidoPRONA                           2.197e+03  5.004e+03   0.439
## partidoPRP                            -4.307e+03  4.496e+03  -0.958
## partidoPRTB                           -5.897e+03  4.291e+03  -1.374
## partidoPSB                             7.579e+03  3.275e+03   2.314
## partidoPSC                             1.563e+03  3.580e+03   0.437
## partidoPSDB                            6.522e+03  3.265e+03   1.997
## partidoPSDC                           -5.275e+03  4.448e+03  -1.186
## partidoPSL                            -6.287e+03  4.058e+03  -1.550
## partidoPSOL                           -2.255e+03  3.544e+03  -0.636
## partidoPSTU                           -4.180e+03  6.317e+03  -0.662
## partidoPT                              9.809e+03  3.197e+03   3.068
## partidoPT do B                        -2.887e+03  4.252e+03  -0.679
## partidoPTB                             1.281e+03  3.354e+03   0.382
## partidoPTC                            -2.905e+03  3.656e+03  -0.795
## partidoPTN                            -6.275e+03  4.707e+03  -1.333
## partidoPV                             -2.387e+03  3.263e+03  -0.732
## quantidade_doacoes                    -5.290e+01  4.796e+01  -1.103
## quantidade_doadores                    1.013e+02  5.536e+01   1.830
## total_receita                         -4.303e-02  7.757e-03  -5.548
## media_receita                          1.003e-01  4.698e-02   2.135
## recursos_de_outros_candidatos.comites  1.772e-02  5.697e-03   3.110
## recursos_de_pessoas_fisicas            8.824e-02  8.460e-03  10.430
## recursos_de_pessoas_juridicas          4.092e-02  4.752e-03   8.612
## recursos_proprios                     -3.066e-03  4.532e-03  -0.677
## recursos_de_partido_politico                  NA         NA      NA
## quantidade_despesas                    1.604e+01  6.592e+00   2.434
## quantidade_fornecedores               -4.051e+01  8.217e+00  -4.931
## total_despesa                          9.318e-02  7.843e-03  11.880
## media_despesa                         -4.035e-02  8.372e-02  -0.482
## sexoMASCULINO                          3.760e+03  1.225e+03   3.069
## grauENSINO FUNDAMENTAL INCOMPLETO     -1.275e+02  3.126e+03  -0.041
## grauENSINO MÉDIO COMPLETO              1.783e+03  1.945e+03   0.917
## grauENSINO MÉDIO INCOMPLETO           -1.100e+03  3.040e+03  -0.362
## grauLÊ E ESCREVE                       4.317e+04  6.608e+03   6.533
## grauSUPERIOR COMPLETO                  6.337e+03  1.810e+03   3.502
## grauSUPERIOR INCOMPLETO                2.857e+03  2.128e+03   1.342
## estado_civilDIVORCIADO(A)             -2.797e+03  1.417e+03  -1.973
## estado_civilSEPARADO(A) JUDICIALMENTE -1.780e+03  2.112e+03  -0.843
## estado_civilSOLTEIRO(A)               -3.155e+03  1.092e+03  -2.890
## estado_civilVIÚVO(A)                  -4.794e+03  3.260e+03  -1.471
##                                       Pr(>|t|)    
## (Intercept)                           0.881216    
## partidoPAN                            0.466403    
## partidoPC do B                        0.122290    
## partidoPCB                            0.420008    
## partidoPCO                            0.683922    
## partidoPDT                            0.789787    
## partidoPFL                            1.29e-07 ***
## partidoPHS                            0.249498    
## partidoPL                             0.059057 .  
## partidoPMDB                           0.000983 ***
## partidoPMN                            0.407176    
## partidoPP                             0.000619 ***
## partidoPPS                            0.932643    
## partidoPR                             7.41e-06 ***
## partidoPRB                            0.446356    
## partidoPRONA                          0.660623    
## partidoPRP                            0.338090    
## partidoPRTB                           0.169354    
## partidoPSB                            0.020675 *  
## partidoPSC                            0.662437    
## partidoPSDB                           0.045821 *  
## partidoPSDC                           0.235696    
## partidoPSL                            0.121295    
## partidoPSOL                           0.524676    
## partidoPSTU                           0.508261    
## partidoPT                             0.002164 ** 
## partidoPT do B                        0.497215    
## partidoPTB                            0.702547    
## partidoPTC                            0.426856    
## partidoPTN                            0.182487    
## partidoPV                             0.464402    
## quantidade_doacoes                    0.270097    
## quantidade_doadores                   0.067217 .  
## total_receita                         2.99e-08 ***
## media_receita                         0.032804 *  
## recursos_de_outros_candidatos.comites 0.001877 ** 
## recursos_de_pessoas_fisicas            < 2e-16 ***
## recursos_de_pessoas_juridicas          < 2e-16 ***
## recursos_proprios                     0.498707    
## recursos_de_partido_politico                NA    
## quantidade_despesas                   0.014957 *  
## quantidade_fornecedores               8.38e-07 ***
## total_despesa                          < 2e-16 ***
## media_despesa                         0.629834    
## sexoMASCULINO                         0.002153 ** 
## grauENSINO FUNDAMENTAL INCOMPLETO     0.967460    
## grauENSINO MÉDIO COMPLETO             0.359328    
## grauENSINO MÉDIO INCOMPLETO           0.717577    
## grauLÊ E ESCREVE                      6.87e-11 ***
## grauSUPERIOR COMPLETO                 0.000465 ***
## grauSUPERIOR INCOMPLETO               0.179589    
## estado_civilDIVORCIADO(A)             0.048528 *  
## estado_civilSEPARADO(A) JUDICIALMENTE 0.399172    
## estado_civilSOLTEIRO(A)               0.003866 ** 
## estado_civilVIÚVO(A)                  0.141455    
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 35930 on 7422 degrees of freedom
## Multiple R-squared:  0.4373, Adjusted R-squared:  0.4333 
## F-statistic: 108.8 on 53 and 7422 DF,  p-value: < 2.2e-16

Após analisar, percebemos que o R quadrado e o RSL caíram. Pois as variáveis mais explicativas são: recursos_de_pessoas_juridicas, recursos_de_pessoas_fisicas, total_despesa, quantidade_fornecedores e total_receita. E as menos explicativas são: recursos_proprios, media_despesa, quantidade_doacoes e quantidade_doares. Percebemos uma ligeira mudança quanto as análises individuais, mas a maior foi a variável quantidade_fornecedores que aumentou o grau de significância no nosso modelo quando analisamos os dois anos em conjunto, em contrapartida das análises individuais, onde ela era menos significativa para o nosso modelo.