Esta análise será feita utilizando dados sobre as votações que candidatos à Câmara Federal de Deputados receberam nos anos de 2006 e 2010. Desse modo, será utilizado Regressão Linear para explicar essas votações. Logo abaixo será respondido 5 perguntas tomando como base os dados fornecidos
Antes de tudo, será importado as nossas bibliotecas que serão utilizadas para a plotagem das análises para responder as perguntas.
Logo após, será importado a nossa base de dados, sendo elas: eleicoes2006 (dados das eleições de 2006), eleicoes2010 (dados das eleições de 2010) e por fim eleicoes2006_2010 (dados das eleições de 2006 e 2010).
eleicoes2006 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2006.csv")
eleicoes2010 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2010.csv")
eleicoes2006_2010 <- read.csv("/Users/mattheusbrito/Downloads/AD2/Lab02/eleicoes_2006_e_2010.csv")
Antes de partir para as perguntas, é necessário entender o que cada coluna da nossa base de dados significa:
Após entender as variáveis disponíveis, será feito uma verificação se há ausência de dados nas tabelas: * 2006
missmap(eleicoes2006)
missmap(eleicoes2010)
*2006 e 2010 missmap(eleicoes2006_2010)
missmap(eleicoes2006_2010)
Através dos três gráficos acima, pode-se confirmar que não há nenhum dado faltando nas três tabelas. Sendo assim, podemos seguir em frente com a nossa análise.
2006 Não, pois algumas variáveis que estão nos dados evidentemente não possuem relação como o número de votos e também são categoricas. Por esse motivo as seguintes variáveis foram removidas:
nome
eleicoes2006_rm <- eleicoes2006 %>%
select(-c(cargo, sequencial_candidato, nome))
Mesmo assim, ainda podem existir variáveis que não são boas preditoras, mas que não foram retiradas. Desse modo, gerou-se um modelo para verificar isso tornando possível observar a importância de cada variável no modelo resultante
modelo2006 <- lm(votos~., data = eleicoes2006_rm)
glance(modelo2006)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.578 0.549 30545. 19.9 0 222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No momento, é interessante que se atente à variável “r.squared” que tem o valor de 0.5778645.
anova(modelo2006)
## Analysis of Variance Table
##
## Response: votos
## Df Sum Sq Mean Sq F value
## uf 26 1.9846e+11 7.6329e+09 8.1813
## partido 28 7.8920e+11 2.8186e+10 30.2104
## quantidade_doacoes 1 1.1279e+12 1.1279e+12 1208.9146
## quantidade_doadores 1 1.7282e+10 1.7282e+10 18.5231
## total_receita 1 1.2684e+12 1.2684e+12 1359.5283
## media_receita 1 1.4433e+11 1.4433e+11 154.6970
## recursos_de_outros_candidatos.comites 1 3.2991e+09 3.2991e+09 3.5361
## recursos_de_pessoas_fisicas 1 3.4729e+10 3.4729e+10 37.2238
## recursos_de_pessoas_juridicas 1 8.8225e+10 8.8225e+10 94.5625
## recursos_proprios 1 4.2737e+09 4.2737e+09 4.5807
## quantidade_despesas 1 5.8131e+10 5.8131e+10 62.3073
## quantidade_fornecedores 1 2.5174e+09 2.5174e+09 2.6983
## total_despesa 1 1.0411e+11 1.0411e+11 111.5870
## media_despesa 1 2.0730e+09 2.0730e+09 2.2219
## sexo 1 2.0785e+09 2.0785e+09 2.2278
## grau 6 7.2530e+09 1.2088e+09 1.2957
## estado_civil 4 1.2601e+09 3.1502e+08 0.3377
## ocupacao 144 2.5130e+11 1.7451e+09 1.8705
## Residuals 3214 2.9986e+12 9.3298e+08
## Pr(>F)
## uf < 2.2e-16 ***
## partido < 2.2e-16 ***
## quantidade_doacoes < 2.2e-16 ***
## quantidade_doadores 1.729e-05 ***
## total_receita < 2.2e-16 ***
## media_receita < 2.2e-16 ***
## recursos_de_outros_candidatos.comites 0.06014 .
## recursos_de_pessoas_fisicas 1.179e-09 ***
## recursos_de_pessoas_juridicas < 2.2e-16 ***
## recursos_proprios 0.03241 *
## quantidade_despesas 3.997e-15 ***
## quantidade_fornecedores 0.10055
## total_despesa < 2.2e-16 ***
## media_despesa 0.13616
## sexo 0.13565
## grau 0.25548
## estado_civil 0.85271
## ocupacao 3.983e-09 ***
## Residuals
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Após analisar a tabela acima, pode-se notar que algumas variáveis tem p-valor > 0.05, dessa forma, não tem muita significância para o nosso modelo de dados, são elas: * recursos_de_outros_candidatos * quantidade_fornecedores * media_despesa * sexo * grau * estado_civil
Sendo assim, é possível afirmar que um modelo de regressão linear com todas as variáveis não é plausível para explicar a variação do número de votos em 2006.
2010 Não, pois algumas variáveis que estão nos dados evidentemente não possuem relação como o número de votos e também são categoricas. Por esse motivo as seguintes variáveis foram removidas:
nome
eleicoes2010_rm <- eleicoes2010 %>%
select(-c(cargo, sequencial_candidato, nome))
Mesmo assim, ainda podem existir variáveis que não são boas preditoras, mas que não foram retiradas. Desse modo, gerou-se um modelo para verificar isso tornando possível observar a importância de cada variável no modelo resultante
modelo2010 <- lm(votos~., data = eleicoes2010_rm)
glance(modelo2010)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.541 0.513 34587. 19.6 0 230 -47837. 96136.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No momento, é interessante que se atente à variável “r.squared” que tem o valor de 0.5405282.
anova(modelo2010)
## Analysis of Variance Table
##
## Response: votos
## Df Sum Sq Mean Sq F value
## uf 26 2.2711e+11 8.7349e+09 7.3017
## partido 26 1.0530e+12 4.0500e+10 33.8552
## quantidade_doacoes 1 4.9125e+11 4.9125e+11 410.6436
## quantidade_doadores 1 3.1724e+10 3.1724e+10 26.5189
## total_receita 1 2.5149e+12 2.5149e+12 2102.2577
## media_receita 1 1.2681e+10 1.2681e+10 10.6007
## recursos_de_outros_candidatos.comites 1 4.6985e+10 4.6985e+10 39.2755
## recursos_de_pessoas_fisicas 1 5.8902e+10 5.8902e+10 49.2372
## recursos_de_pessoas_juridicas 1 2.7507e+10 2.7507e+10 22.9939
## recursos_proprios 1 4.8877e+10 4.8877e+10 40.8572
## recursos_de_partido_politico 1 7.7882e+06 7.7882e+06 0.0065
## quantidade_despesas 1 3.1002e+10 3.1002e+10 25.9152
## quantidade_fornecedores 1 3.5029e+09 3.5029e+09 2.9282
## total_despesa 1 8.3297e+10 8.3297e+10 69.6301
## media_despesa 1 4.8708e+09 4.8708e+09 4.0716
## sexo 1 3.9112e+09 3.9112e+09 3.2695
## grau 6 6.8017e+10 1.1336e+10 9.4761
## estado_civil 4 1.1412e+10 2.8530e+09 2.3849
## ocupacao 153 6.4294e+11 4.2022e+09 3.5127
## Residuals 3810 4.5578e+12 1.1963e+09
## Pr(>F)
## uf < 2.2e-16 ***
## partido < 2.2e-16 ***
## quantidade_doacoes < 2.2e-16 ***
## quantidade_doadores 2.742e-07 ***
## total_receita < 2.2e-16 ***
## media_receita 0.00114 **
## recursos_de_outros_candidatos.comites 4.090e-10 ***
## recursos_de_pessoas_fisicas 2.673e-12 ***
## recursos_de_pessoas_juridicas 1.687e-06 ***
## recursos_proprios 1.836e-10 ***
## recursos_de_partido_politico 0.93570
## quantidade_despesas 3.740e-07 ***
## quantidade_fornecedores 0.08713 .
## total_despesa < 2.2e-16 ***
## media_despesa 0.04368 *
## sexo 0.07066 .
## grau 2.343e-10 ***
## estado_civil 0.04913 *
## ocupacao < 2.2e-16 ***
## Residuals
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Após analisar a tabela acima, pode-se notar que algumas variáveis tem p-valor > 0.05, dessa forma, não tem muita significância para o nosso modelo de dados, são elas: * recursos_de_partido_politico * quantidade_fornecedores * sexo
Sendo assim, é possível afirmar que um modelo de regressão linear com todas as variáveis não é plausível para explicar a variação do número de votos em 2010.
ggplot(modelo2006, aes(x = predict(modelo2006), y = residuals(modelo2006))) +
geom_point(color= "darkblue") +
xlab("Predict") +
ylab("Residuals")
Após a plotagem do gráfico, percebemos que os resíduos são assimétrico e que por mais que tenha alguns pontos distantes, ainda há uma aglomeração que significa um padrão de comportamento, ou seja, não são aleatórios. Isso significa que o modelo não é ideal e que faltam transformações ou interações entre as variáveis.
ggplot(modelo2010, aes(x = predict(modelo2010), y = residuals(modelo2010))) +
geom_point(color= "darkred") +
xlab("Predict") +
ylab("Residuals")
Após a plotagem do gráfico, percebemos que os resíduos são assimétrico e que por mais que tenha alguns pontos distantes, ainda há uma aglomeração que significa um padrão de comportamento, ou seja, não são aleatórios. Isso significa que o modelo não é ideal e que faltam transformações ou interações entre as variáveis.
Para responder a pergunta utilizaremos os valores de R² para comparar os modelos.
eleicoes2006_melhor <- eleicoes2006_rm %>%
select(-uf)
modeloMelhorado2006 <- lm(votos~., data = eleicoes2006_melhor)
glance(modeloMelhorado2006)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.564 0.538 30914. 21.5 0 196 -40299. 80992.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No modelo acima foi retirado a variável “uf” que tem bastante significância para o modelo.
eleicoes2006_pior <- eleicoes2006_rm %>%
select(-sexo)
modeloPiorado2006 <- lm(votos~., data = eleicoes2006_pior)
glance(modeloPiorado2006)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.578 0.549 30540. 20.0 0 221 -40244. 80932.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No modelo acima foi retirado a variável “sexo” que tem pouca significância para o modelo.
glance(modelo2006)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.578 0.549 30545. 19.9 0 222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca1 = glance(modelo2006)$adj.r.squared - glance(modeloMelhorado2006)$adj.r.squared
diferenca2 = glance(modelo2006)$adj.r.squared - glance(modeloPiorado2006)$adj.r.squared
Observamos que a diferença do valor do R² ajustado é de 0.011 entre o primeiro modelo e o modelo original, já a diferença entre o segundo modelo e o original é de 0, logo podemos dizer que quando retira a variável “uf” temos mudanças mais significantes, do que quando retira-se a variável “sexo”.
eleicoes2010_melhor <- eleicoes2010_rm %>%
select(-partido)
modeloMelhorado2010 <- lm(votos~., data = eleicoes2010_melhor)
glance(modeloMelhorado2010)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.532 0.507 34792. 21.5 0 204 -47875. 96159.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No modelo acima foi retirado a variável “partido” que tem bastante significância para o modelo.
eleicoes2010_pior <- eleicoes2010_rm %>%
select(-quantidade_fornecedores)
modeloPiorado2010 <- lm(votos~., data = eleicoes2010_pior)
glance(modeloPiorado2010)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.540 0.512 34607. 19.6 0 229 -47840. 96140.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
No modelo acima foi retirado a variável “quantidade_fornecedores” que tem pouca significância para o modelo.
glance(modelo2010)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.541 0.513 34587. 19.6 0 230 -47837. 96136.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca3 = glance(modelo2010)$adj.r.squared - glance(modeloMelhorado2010)$adj.r.squared
diferenca4 = glance(modelo2010)$adj.r.squared - glance(modeloPiorado2010)$adj.r.squared
Observamos que a diferença do valor do R² ajustado é de 0.006 entre o primeiro modelo e o modelo original, já a diferença entre o segundo modelo e o original é de 0.001, logo podemos dizer que quando retira a variável “partido” temos mudanças mais significantes, do que quando retira-se a variável “quantidade_fornecedores”.
eleicoes2006_cor <- eleicoes2006_rm %>%
select(-c(quantidade_doadores, estado_civil, ano))
Para responder a pergunta, é preciso observar a correlação entre as variáveis.
No entanto temos algumas variáveis do tipo factor, neste caso vamos convertê-las para inteiro para que seja possível calcular correlação dela com as demais variáveis.
dadosCorrelacao2006 <- eleicoes2006_cor %>%
mutate(uf = as.numeric(uf)) %>%
mutate(partido = as.numeric(partido)) %>%
mutate(sexo = as.numeric(sexo)) %>%
mutate(grau = as.numeric(grau)) %>%
mutate(ocupacao = as.numeric(ocupacao))
## Warning: package 'bindrcpp' was built under R version 3.4.4
round(2)
## [1] 2
ggpairs(dadosCorrelacao2006, axisLabels = "none")
Observamos uma alta correlação entre “total_despesa” e “total_receita” (0,982) e também entre “total_despesa” e “recursos_de_pessoas_juridicas” (0,888), por isso iremos remover a variável “total_despesa”.
As demais variáveis possuem correlação linear moderada ou baixa e em função disso serão mantidas.
eleicoes2010_cor <- eleicoes2010_rm %>%
select(-c(quantidade_doadores, estado_civil, ano))
Para responder a pergunta, é preciso observar a correlação entre as variáveis.
No entanto temos algumas variáveis do tipo factor, neste caso vamos convertê-las para inteiro para que seja possível calcular correlação dela com as demais variáveis.
dadosCorrelacao2010 <- eleicoes2010_cor %>%
mutate(uf = as.numeric(uf)) %>%
mutate(partido = as.numeric(partido)) %>%
mutate(sexo = as.numeric(sexo)) %>%
mutate(grau = as.numeric(grau)) %>%
mutate(ocupacao = as.numeric(ocupacao))
round(2)
## [1] 2
ggpairs(dadosCorrelacao2010, axisLabels = "none")
Observamos uma alta correlação entre “total_despesa” e “total_receita” (0,99) e também entre “total_despesa” e “recursos_de_pessoas_juridicas” (0,83), por isso iremos remover a variável “total_despesa”.
As demais variáveis possuem correlação linear moderada ou baixa e em função disso serão mantidas.
eleicoesRS2 <- eleicoes2006_rm %>%
select(-total_despesa)
modeloRS2 <- lm(votos~., data = eleicoesRS2)
glance(modeloRS2)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.565 0.535 31012. 19.0 0 221 -40297. 81038.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
glance(modelo2006)
## # A tibble: 1 x 11
## r.squared adj.r.squared sigma statistic p.value df logLik AIC
## * <dbl> <dbl> <dbl> <dbl> <dbl> <int> <dbl> <dbl>
## 1 0.578 0.549 30545. 19.9 0 222 -40244. 80934.
## # ... with 3 more variables: BIC <dbl>, deviance <dbl>, df.residual <int>
diferenca = glance(modelo2006)$adj.r.squared - glance(modeloRS2)$adj.r.squared
round(diferenca,3)
## [1] 0.014
Acredito que, considerando que a taxa de aumento de erro e de diminuição do R² ajustado foi baixa (0.014), então a retirada da variável total_despesa não acarretou em mudanças muito drásticas no modelo.
eleicoes <- eleicoes2006_2010 %>% select(-c(nome, sequencial_candidato, cargo, ano, ocupacao, uf))
modelo_novo <- lm(data = eleicoes, votos ~., na.action = na.omit)
modelo_novo %>% summary()
##
## Call:
## lm(formula = votos ~ ., data = eleicoes, na.action = na.omit)
##
## Residuals:
## Min 1Q Median 3Q Max
## -325910 -11474 -4532 1880 1261518
##
## Coefficients: (1 not defined because of singularities)
## Estimate Std. Error t value
## (Intercept) 5.298e+02 3.546e+03 0.149
## partidoPAN -4.051e+03 5.562e+03 -0.728
## partidoPC do B 6.227e+03 4.029e+03 1.545
## partidoPCB -8.095e+03 1.004e+04 -0.806
## partidoPCO -5.023e+03 1.234e+04 -0.407
## partidoPDT 8.718e+02 3.270e+03 0.267
## partidoPFL 2.058e+04 3.893e+03 5.285
## partidoPHS -4.315e+03 3.747e+03 -1.152
## partidoPL 7.604e+03 4.027e+03 1.888
## partidoPMDB 1.055e+04 3.201e+03 3.297
## partidoPMN -2.993e+03 3.611e+03 -0.829
## partidoPP 1.186e+04 3.463e+03 3.425
## partidoPPS 2.934e+02 3.472e+03 0.085
## partidoPR 1.876e+04 4.184e+03 4.485
## partidoPRB 3.305e+03 4.341e+03 0.762
## partidoPRONA 2.197e+03 5.004e+03 0.439
## partidoPRP -4.307e+03 4.496e+03 -0.958
## partidoPRTB -5.897e+03 4.291e+03 -1.374
## partidoPSB 7.579e+03 3.275e+03 2.314
## partidoPSC 1.563e+03 3.580e+03 0.437
## partidoPSDB 6.522e+03 3.265e+03 1.997
## partidoPSDC -5.275e+03 4.448e+03 -1.186
## partidoPSL -6.287e+03 4.058e+03 -1.550
## partidoPSOL -2.255e+03 3.544e+03 -0.636
## partidoPSTU -4.180e+03 6.317e+03 -0.662
## partidoPT 9.809e+03 3.197e+03 3.068
## partidoPT do B -2.887e+03 4.252e+03 -0.679
## partidoPTB 1.281e+03 3.354e+03 0.382
## partidoPTC -2.905e+03 3.656e+03 -0.795
## partidoPTN -6.275e+03 4.707e+03 -1.333
## partidoPV -2.387e+03 3.263e+03 -0.732
## quantidade_doacoes -5.290e+01 4.796e+01 -1.103
## quantidade_doadores 1.013e+02 5.536e+01 1.830
## total_receita -4.303e-02 7.757e-03 -5.548
## media_receita 1.003e-01 4.698e-02 2.135
## recursos_de_outros_candidatos.comites 1.772e-02 5.697e-03 3.110
## recursos_de_pessoas_fisicas 8.824e-02 8.460e-03 10.430
## recursos_de_pessoas_juridicas 4.092e-02 4.752e-03 8.612
## recursos_proprios -3.066e-03 4.532e-03 -0.677
## recursos_de_partido_politico NA NA NA
## quantidade_despesas 1.604e+01 6.592e+00 2.434
## quantidade_fornecedores -4.051e+01 8.217e+00 -4.931
## total_despesa 9.318e-02 7.843e-03 11.880
## media_despesa -4.035e-02 8.372e-02 -0.482
## sexoMASCULINO 3.760e+03 1.225e+03 3.069
## grauENSINO FUNDAMENTAL INCOMPLETO -1.275e+02 3.126e+03 -0.041
## grauENSINO MÉDIO COMPLETO 1.783e+03 1.945e+03 0.917
## grauENSINO MÉDIO INCOMPLETO -1.100e+03 3.040e+03 -0.362
## grauLÊ E ESCREVE 4.317e+04 6.608e+03 6.533
## grauSUPERIOR COMPLETO 6.337e+03 1.810e+03 3.502
## grauSUPERIOR INCOMPLETO 2.857e+03 2.128e+03 1.342
## estado_civilDIVORCIADO(A) -2.797e+03 1.417e+03 -1.973
## estado_civilSEPARADO(A) JUDICIALMENTE -1.780e+03 2.112e+03 -0.843
## estado_civilSOLTEIRO(A) -3.155e+03 1.092e+03 -2.890
## estado_civilVIÚVO(A) -4.794e+03 3.260e+03 -1.471
## Pr(>|t|)
## (Intercept) 0.881216
## partidoPAN 0.466403
## partidoPC do B 0.122290
## partidoPCB 0.420008
## partidoPCO 0.683922
## partidoPDT 0.789787
## partidoPFL 1.29e-07 ***
## partidoPHS 0.249498
## partidoPL 0.059057 .
## partidoPMDB 0.000983 ***
## partidoPMN 0.407176
## partidoPP 0.000619 ***
## partidoPPS 0.932643
## partidoPR 7.41e-06 ***
## partidoPRB 0.446356
## partidoPRONA 0.660623
## partidoPRP 0.338090
## partidoPRTB 0.169354
## partidoPSB 0.020675 *
## partidoPSC 0.662437
## partidoPSDB 0.045821 *
## partidoPSDC 0.235696
## partidoPSL 0.121295
## partidoPSOL 0.524676
## partidoPSTU 0.508261
## partidoPT 0.002164 **
## partidoPT do B 0.497215
## partidoPTB 0.702547
## partidoPTC 0.426856
## partidoPTN 0.182487
## partidoPV 0.464402
## quantidade_doacoes 0.270097
## quantidade_doadores 0.067217 .
## total_receita 2.99e-08 ***
## media_receita 0.032804 *
## recursos_de_outros_candidatos.comites 0.001877 **
## recursos_de_pessoas_fisicas < 2e-16 ***
## recursos_de_pessoas_juridicas < 2e-16 ***
## recursos_proprios 0.498707
## recursos_de_partido_politico NA
## quantidade_despesas 0.014957 *
## quantidade_fornecedores 8.38e-07 ***
## total_despesa < 2e-16 ***
## media_despesa 0.629834
## sexoMASCULINO 0.002153 **
## grauENSINO FUNDAMENTAL INCOMPLETO 0.967460
## grauENSINO MÉDIO COMPLETO 0.359328
## grauENSINO MÉDIO INCOMPLETO 0.717577
## grauLÊ E ESCREVE 6.87e-11 ***
## grauSUPERIOR COMPLETO 0.000465 ***
## grauSUPERIOR INCOMPLETO 0.179589
## estado_civilDIVORCIADO(A) 0.048528 *
## estado_civilSEPARADO(A) JUDICIALMENTE 0.399172
## estado_civilSOLTEIRO(A) 0.003866 **
## estado_civilVIÚVO(A) 0.141455
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
##
## Residual standard error: 35930 on 7422 degrees of freedom
## Multiple R-squared: 0.4373, Adjusted R-squared: 0.4333
## F-statistic: 108.8 on 53 and 7422 DF, p-value: < 2.2e-16
Após analisar, percebemos que o R quadrado e o RSL caíram. Pois as variáveis mais explicativas são: recursos_de_pessoas_juridicas, recursos_de_pessoas_fisicas, total_despesa, quantidade_fornecedores e total_receita. E as menos explicativas são: recursos_proprios, media_despesa, quantidade_doacoes e quantidade_doares. Percebemos uma ligeira mudança quanto as análises individuais, mas a maior foi a variável quantidade_fornecedores que aumentou o grau de significância no nosso modelo quando analisamos os dois anos em conjunto, em contrapartida das análises individuais, onde ela era menos significativa para o nosso modelo.