Prova Final Atualizada

Dellano Mattos, Humberto Guedes e Luiz Felipe

03/12/2019

Análise do Voto em Candidatos à Presidência da República, aplicando-se Variáveis Sócio-demográficas

A - Banco de dados

O Banco de Dados que será utilizado para este projeto consistirá em um banco do CESOP-UNICAMP (Centro de Estudos de Opinião Publica da Universidade de Campinas), desenvolvido pelo DATAFOLHA (Istituto de Pesquisas da Folha de São Paulo). A pesquisa foi realizada por Amostragem, coletada em Outubro de 1998, acerca do tema “Intenção de Voto para Presidência da República”.

Link: https://www.cesop.unicamp.br/por

Link: https://mega.nz/#F!ccsCmQ6L!UbfhcaIfD8OHvVmLMJIqCA

B - Hipóteses e Objetivos

Nosso objetivo é, em última instância, verificar se as variáveis analisadas serão explicativas para o fenômeno do voto.

Temos algumas excpectativas de resultado:

(H0)1 - Há uma associação entre a Faixa de Renda e intenção de voto em um determinado candidato

(H0)2 - Há uma correlação entre Idade e intenção de voto em um determinado candidato

(H0)3 - Há uma associação entre a Faixa de Escolaridade e intenção de voto em um determinado candidato

(H0)4 - Há uma associação entre a qualidade da Avaliação do Plano Real e a intenção de voto de um determinado candidato

(H0)5 - Há uma associação entre Indentificação Partidária e a intenção de voto de um determinado candidato

(H0)6 - Há uma associação entre o Sexo e a intenção de voto de um determinado candidato

C - Detalhamento dos Bancos

Como pode-se observar, o tamanho da amostra (número de casos) é de 20.228. A pesquisa possue variáveis quantitativas e qualitativas, com perguntas espontâneas ou estimuladas.

As qualitativas são:

p1(Espontanea)

p4(estimulada)

p15(avaliacaoPlanoReal)

p40 (Cerveja)

RENDAF(Renda)

ESCOLA(Escolaridade)

PARTIDO(Identificação Partidária)

p13

p14

IDADE(Faixa Etária)

As quantitativas são:

IDADE1(Idade)

1º Passo - Carregar o Banco de dados e libraries a serem utilizadas

Comando:

summary()

library(haven) ## Leirura de arquivos de foramto SAV. (SPSS)
Eleicao1998 <- read_sav("/cloud/project/00863.SAV")

library(esquisse) ## Requisito para o Gggplot2

library(ggplot2) ## gerar gráficos manualmente

library(knitr) ## Apresentar tabelas 

library(psych) ## Análise de dados

options(scipen = 999) ## Tirar notação científica

summary(Eleicao1998)
##       SEXO           IDADE1          IDADE             p1       
##  Min.   :1.000   Min.   :16.00   Min.   :1.000   Min.   : 1.00  
##  1st Qu.:1.000   1st Qu.:26.00   1st Qu.:3.000   1st Qu.: 4.00  
##  Median :2.000   Median :36.00   Median :4.000   Median : 7.00  
##  Mean   :1.504   Mean   :38.88   Mean   :3.783   Mean   :11.17  
##  3rd Qu.:2.000   3rd Qu.:49.00   3rd Qu.:5.000   3rd Qu.:17.00  
##  Max.   :2.000   Max.   :94.00   Max.   :6.000   Max.   :98.00  
##        p4              p13              p14              p15        
##  Min.   : 1.000   Min.   : 1.000   Min.   : 1.000   Min.   : 1.000  
##  1st Qu.: 4.000   1st Qu.: 2.000   1st Qu.: 5.000   1st Qu.: 2.000  
##  Median : 4.000   Median : 3.000   Median : 7.000   Median : 2.000  
##  Mean   : 6.956   Mean   : 2.949   Mean   : 7.331   Mean   : 2.573  
##  3rd Qu.: 7.000   3rd Qu.: 3.000   3rd Qu.:10.000   3rd Qu.: 3.000  
##  Max.   :97.000   Max.   :97.000   Max.   :12.000   Max.   :97.000  
##       pea            PARTIDO            p40             ESCOLA      
##  Min.   : 1.000   Min.   : 1.000   Min.   : 0.000   Min.   : 1.000  
##  1st Qu.: 2.000   1st Qu.: 3.000   1st Qu.: 1.000   1st Qu.: 2.000  
##  Median : 7.000   Median :13.000   Median : 9.000   Median : 2.000  
##  Mean   : 6.536   Mean   : 9.243   Mean   : 9.472   Mean   : 3.105  
##  3rd Qu.:11.000   3rd Qu.:13.000   3rd Qu.:16.000   3rd Qu.: 5.000  
##  Max.   :16.000   Max.   :13.000   Max.   :19.000   Max.   :97.000  
##      RENDAF         pesoest           nquest          d_r           
##  Min.   : 1.00   Min.   :0.0000   Min.   :    1   Length:20228      
##  1st Qu.: 1.00   1st Qu.:0.7400   1st Qu.: 5082   Class :character  
##  Median : 3.00   Median :0.9898   Median :10274   Mode  :character  
##  Mean   : 3.21   Mean   :0.8855   Mean   :10279                     
##  3rd Qu.: 4.00   3rd Qu.:1.1293   3rd Qu.:15442                     
##  Max.   :97.00   Max.   :2.7048   Max.   :20610

O que é arquivo .SAV ??

“Arquivos sav, o formato nativo do SPSS, são arquivos binários, o que significa que não podem ser visualizados em editores de texto. As especificações do formato sav não são divulgadas pela SPSS Inc”

(AQUINO, Jackson Alves. R Para Cientistas Sociais. 2014)

2º Passo - Renomear as Variáveis e transformá-las em seus respectivos tipos

comandos:

as.factor

Espontanea <- as.factor(Eleicao1998$p1)

Estimulada <- as.factor(Eleicao1998$p4)

Sexo <- as.factor(Eleicao1998$SEXO)

Idade <- Eleicao1998$IDADE1

Escolaridade <- as.factor(Eleicao1998$ESCOLA)

AvaliacaoPlanoReal <- as.factor(Eleicao1998$p15)

Partido <- as.factor(Eleicao1998$PARTIDO)

Renda <- as.factor(Eleicao1998$RENDAF)

Entrevistador <- as.factor(Eleicao1998$pesoest)

Questionario <- as.factor(Eleicao1998$nquest)

3° Passo - Renomeando os níveis dos fatores para facilitar sua vizualização nos gráficos

Comandos:

factor()

names()

Eleicao1998$p1 <- factor(Estimulada , levels = c("1","2","3","4","5","7","8","10","11","12","21","15","16","17","80","81","97"), labels = c("Ivan","Ciro","Enéas","FHC","Zé Maria","Lula","Eymael","João","Sirkis","Vasco Neto","Thereza","Sérgio","branco/nulo/nenhum","NS","Dois nomes","Outro Nome","NR"))

Eleicao1998$p4 <- factor(Eleicao1998$p4 , levels = c("1","2","3","4","5","7","8","10","11","12","21","15","98","96","16","17"), labels = c("Ivan", "Ciro","Enéas","FHC","Zé Maria","Lula","Eymael","João","Sirkis","Vasco Neto","Thereza","Sérgio","Outro nome","Outras referências"," branco/nulo/nenhum","NS") )

Eleicao1998$SEXO <- factor(Eleicao1998$SEXO , levels = c("1","2"), labels = c("Masculino","Feminino") )

Eleicao1998$ESCOLA <- factor(Eleicao1998$ESCOLA , levels = c("1","2","3","4","5","6","7","8","97"), labels = c("Analfabeto","Primário completo" , "Ginasial completo" ,"Colegial incompleto", "Colegial completo","Superior incompleto", "Superior completo", "Pós Graduação","NR") )

Eleicao1998$p15 <- factor(Eleicao1998$p15 , levels = c("1","2","3","4","5","6","97"), labels = c("Ótimo","Bom","Regular","Ruim","Péssimo","NS","NR") )

Eleicao1998$PARTIDO <- factor(Eleicao1998$PARTIDO , levels = c("1","2","3","4","5","6","7","8","9","10","11","12","13"), labels = c("PMDB", "PT","PPB","PSDB","PTB","PRN","PDT", "PSB", "PFL","PL", "Outro","Nomes e referências","Nenhum/não tem") )

Eleicao1998$RENDAF <- factor(Eleicao1998$RENDAF , levels = c("1","2","3","4","5","6","7","8","9","97"), labels = c("até R$260,00","De R$261,00 ~R$390,00","R$391,00~R$650,00","R$651,00~R$1.300,00","R$1.301,00~R$2.600,00"," R$2.601,00~R$6.500,00","+ Mais R$6.501,00" ,"NS","Recusa","NR") )
names(Eleicao1998) = c("Sexo", "Idade", "Faixa Etária", "Voto Espontaneo", "Voto Estimulado", "Faixa de Desempenho FHC", "Nota para o governo FHC","Aprovacao Plano Real", "Emprego","Partido", "Cerveja","Escolaridade","Faixa Renda","Entrevistador", "Questionario","Coluna Extra")

summary(Eleicao1998)
##         Sexo           Idade        Faixa Etária             Voto Espontaneo
##  Masculino:10037   Min.   :16.00   Min.   :1.000   FHC               :8860  
##  Feminino :10191   1st Qu.:26.00   1st Qu.:3.000   Lula              :5296  
##                    Median :36.00   Median :4.000   Ciro              :2077  
##                    Mean   :38.88   Mean   :3.783   NS                :1772  
##                    3rd Qu.:49.00   3rd Qu.:5.000   branco/nulo/nenhum:1028  
##                    Max.   :94.00   Max.   :6.000   Enéas             : 637  
##                                                    (Other)           : 558  
##             Voto Estimulado Faixa de Desempenho FHC Nota para o governo FHC
##  FHC                :8860   Min.   : 1.000          Min.   : 1.000         
##  Lula               :5296   1st Qu.: 2.000          1st Qu.: 5.000         
##  Ciro               :2077   Median : 3.000          Median : 7.000         
##  NS                 :1772   Mean   : 2.949          Mean   : 7.331         
##   branco/nulo/nenhum:1028   3rd Qu.: 3.000          3rd Qu.:10.000         
##  (Other)            :1055   Max.   :97.000          Max.   :12.000         
##  NA's               : 140                                                  
##  Aprovacao Plano Real    Emprego                      Partido     
##  Ótimo  :2514         Min.   : 1.000   Nenhum/não tem     :10559  
##  Bom    :8724         1st Qu.: 2.000   PT                 : 2429  
##  Regular:6208         Median : 7.000   PMDB               : 2285  
##  Ruim   :1185         Mean   : 6.536   Nomes e referências: 1790  
##  Péssimo:1317         3rd Qu.:11.000   PFL                :  901  
##  NS     : 275         Max.   :16.000   PSDB               :  814  
##  NR     :   5                          (Other)            : 1450  
##     Cerveja                    Escolaridade                  Faixa Renda  
##  Min.   : 0.000   Primário completo  :5544   até R$260,00          :5183  
##  1st Qu.: 1.000   Analfabeto         :4946   R$651,00~R$1.300,00   :3924  
##  Median : 9.000   Colegial completo  :3562   R$391,00~R$650,00     :3840  
##  Mean   : 9.472   Colegial incompleto:2234   De R$261,00 ~R$390,00 :2847  
##  3rd Qu.:16.000   Ginasial completo  :2156   R$1.301,00~R$2.600,00 :2269  
##  Max.   :19.000   Superior completo  : 883    R$2.601,00~R$6.500,00:1037  
##                   (Other)            : 903   (Other)               :1128  
##  Entrevistador     Questionario   Coluna Extra      
##  Min.   :0.0000   Min.   :    1   Length:20228      
##  1st Qu.:0.7400   1st Qu.: 5082   Class :character  
##  Median :0.9898   Median :10274   Mode  :character  
##  Mean   :0.8855   Mean   :10279                     
##  3rd Qu.:1.1293   3rd Qu.:15442                     
##  Max.   :2.7048   Max.   :20610                     
## 

4° Passo - Demonstrar informações sobre o banco de dados e retirar as variáveis que não serão utilizadas

Sexo Idade Faixa Etária Voto Espontaneo Voto Estimulado Faixa de Desempenho FHC Nota para o governo FHC Aprovacao Plano Real Emprego Partido Cerveja Escolaridade Faixa Renda Entrevistador Questionario Coluna Extra
Masculino:10037 Min. :16.00 Min. :1.000 FHC :8860 FHC :8860 Min. : 1.000 Min. : 1.000 Ótimo :2514 Min. : 1.000 Nenhum/não tem :10559 Min. : 0.000 Primário completo :5544 até R$260,00 :5183 Min. :0.0000 Min. : 1 Length:20228
Feminino :10191 1st Qu.:26.00 1st Qu.:3.000 Lula :5296 Lula :5296 1st Qu.: 2.000 1st Qu.: 5.000 Bom :8724 1st Qu.: 2.000 PT : 2429 1st Qu.: 1.000 Analfabeto :4946 R$651,00~R$1.300,00 :3924 1st Qu.:0.7400 1st Qu.: 5082 Class :character
NA Median :36.00 Median :4.000 Ciro :2077 Ciro :2077 Median : 3.000 Median : 7.000 Regular:6208 Median : 7.000 PMDB : 2285 Median : 9.000 Colegial completo :3562 R$391,00~R$650,00 :3840 Median :0.9898 Median :10274 Mode :character
NA Mean :38.88 Mean :3.783 NS :1772 NS :1772 Mean : 2.949 Mean : 7.331 Ruim :1185 Mean : 6.536 Nomes e referências: 1790 Mean : 9.472 Colegial incompleto:2234 De R$261,00 ~R$390,00 :2847 Mean :0.8855 Mean :10279 NA
NA 3rd Qu.:49.00 3rd Qu.:5.000 branco/nulo/nenhum:1028 branco/nulo/nenhum:1028 3rd Qu.: 3.000 3rd Qu.:10.000 Péssimo:1317 3rd Qu.:11.000 PFL : 901 3rd Qu.:16.000 Ginasial completo :2156 R$1.301,00~R$2.600,00 :2269 3rd Qu.:1.1293 3rd Qu.:15442 NA
NA Max. :94.00 Max. :6.000 Enéas : 637 (Other) :1055 Max. :97.000 Max. :12.000 NS : 275 Max. :16.000 PSDB : 814 Max. :19.000 Superior completo : 883 R$2.601,00~R$6.500,00:1037 Max. :2.7048 Max. :20610 NA
NA NA NA (Other) : 558 NA’s : 140 NA NA NR : 5 NA (Other) : 1450 NA (Other) : 903 (Other) :1128 NA NA NA

5° Passo - Manipular as variáveis e gerar gráficos (Comando ggplot)

Barplot de Intenção de voto espontâneo x Sexo

Barplot de Intenção de voto estimulado x Sexo

Boxplot de Intenção de voto Espontâneo por Idade

Boxplot de Intenção de Voto Estimulada por idade

Barplot de Porporção de Intenção de voto Espontâneo por Escolaridade

Barplot de Porporção de Intenção de voto Estimulado por Escolaridade

Barplot de Intenção de voto Espontâneo por Aprovação do Plano Real

Barplot de Intenção de voto Estimulado por Aprovação do Plano Real

Barplot de Intenção de Voto Espontâneo Por Partido

Barplot de Intenção de Voto Estimulado Por Partido

Barplot de Intenção de Voto Espontâneo por Renda

Conclusão da Primeira Parte

  1. Metodologia : Nesta primeira parte escolhemos fazer somente os gráficos comparativos

1.1 - Boxplot -> para cruzamento de variáveis quali x quanti, como fizemos com Intenção de voto por Idade, demonstrando dados estatísticos como média, mediana e os outliers

1.2 - Barplot com qualitativas como preenchimento -> Permitiu analisarmos variáveis quali x quali

1.3 - Barplot com Proporção -> Com ele, pudemos dar mais ênfase às variáveis qualitativas, em um momento onde o número de votos não era tão importante, mais sim a variável qualitativa.

  1. Revisão Teórica: “Quando são aplicados questionários, muitas questões ficam sem receber resposta de boa parte dos entrevistados. Em alguns casos, a pergunta não se aplica ao indivíduo, em outros, o entrevistado, por algum motivo, preferiu não responder à pergunta e, finalmente, o entrevistado pode não saber responder à pergunta. Antes de realizar a análise dos dados pode ser necessário recodificar as variáveis para que as análises posteriores sejam bem-sucedidas” (AQUINO, 2014)

  2. Vimos, que retirando da análise da Intenção de voto Espontânea por Escolaridade, as demais não sofreram uma aparente alteração quando constrastádas com a intenção de voto Estimulada.

  3. conclusão geral do bloco: Verificamos que os gráficos contém muitas informações que podem prejudicar na hora de traçarmos testes de correlação e associação. Além disso, a apartir desta parte utilizaremos somente a variável de Intenção de Voto estimulada.

Passo 6 - Restringir a variável dependente para 2 léveis (FHC e Lula)

Conforme explicado acima, o grau elevado de léveis de fatores dentro de uma variável podem atrapalhar na análise dos dados. Por isso, estamos alterando-o criando um outro banco com a variável p4(Voto Estimulado)

comando: data[x==v] na.omit (omitir resultados com NA)

##         Sexo          Idade        Faixa Etária   Voto Espontaneo
##  Masculino:7391   Min.   :16.00   Min.   :1.000   FHC :8860      
##  Feminino :6765   1st Qu.:26.00   1st Qu.:3.000   Lula:5296      
##                   Median :36.00   Median :4.000                  
##                   Mean   :38.37   Mean   :3.736                  
##                   3rd Qu.:48.00   3rd Qu.:5.000                  
##                   Max.   :94.00   Max.   :6.000                  
##                                                                  
##  Voto Estimulado Faixa de Desempenho FHC Nota para o governo FHC
##  FHC :8860       Min.   : 1.000          Min.   : 1.000         
##  Lula:5296       1st Qu.: 2.000          1st Qu.: 5.000         
##                  Median : 3.000          Median : 7.000         
##                  Mean   : 2.787          Mean   : 7.401         
##                  3rd Qu.: 3.000          3rd Qu.:10.000         
##                  Max.   :97.000          Max.   :12.000         
##                                                                 
##  Aprovacao Plano Real    Emprego                      Partido    
##  Ótimo  :2114         Min.   : 1.000   Nenhum/não tem     :6603  
##  Bom    :6458         1st Qu.: 2.000   PT                 :2084  
##  Regular:3974         Median : 7.000   PMDB               :1681  
##  Ruim   : 739         Mean   : 6.403   Nomes e referências:1339  
##  Péssimo: 768         3rd Qu.:11.000   PFL                : 743  
##  NS     :  98         Max.   :16.000   PSDB               : 643  
##  NR     :   5                          (Other)            :1063  
##     Cerveja                    Escolaridade                  Faixa Renda  
##  Min.   : 0.000   Primário completo  :4044   até R$260,00          :3390  
##  1st Qu.: 1.000   Analfabeto         :3200   R$651,00~R$1.300,00   :2839  
##  Median : 9.000   Colegial completo  :2486   R$391,00~R$650,00     :2763  
##  Mean   : 9.165   Colegial incompleto:1645   De R$261,00 ~R$390,00 :2013  
##  3rd Qu.:16.000   Ginasial completo  :1527   R$1.301,00~R$2.600,00 :1645  
##  Max.   :19.000   Superior completo  : 603    R$2.601,00~R$6.500,00: 782  
##                   (Other)            : 651   (Other)               : 724  
##  Entrevistador     Questionario   Coluna Extra      
##  Min.   :0.0000   Min.   :    1   Length:14156      
##  1st Qu.:0.7400   1st Qu.: 5002   Class :character  
##  Median :0.9898   Median :10058   Mode  :character  
##  Mean   :0.8888   Mean   :10151                     
##  3rd Qu.:1.1359   3rd Qu.:15258                     
##  Max.   :2.7048   Max.   :20610                     
## 

Passo 7 - Renomear as variáveis do novo banco

Estimulada2 <- Eleicao1998_2$`Voto Estimulado`
Sexo2 <- Eleicao1998_2$Sexo
Idade2 <- Eleicao1998_2
Escolaridade2 <- Eleicao1998_2$Escolaridade
Real2 <- Eleicao1998_2$`Aprovacao Plano Real`
Renda2 <- Eleicao1998_2$`Faixa Renda`
Partido2 <- Eleicao1998_2$Partido

Passo 8 - Gerar gráficos com o novo Banco criado

Barplot de Voto Estimulado por Sexo

Boxplot de Voto Estimulado por Idade

Barplot de proporção entre de Voto Estimulado e Escolaridade

Barplot de voto Estimulado por Avaliação do Plano Real

Barplot de voto Estimulado por Identificação Partidária

Barplot de voto Estimulado por Faixa de Renda

Passo 8 - Fazer os testes Estatísticos

Testes de Correlação

Passos a serem realizados:

  1. Teste de Normalidade
  2. Igualdade de Variância (Não usamos) 3.Teste de Correlação

Teste de Correlação (para variáveis Quali x Quanti)

Comandos:

Shapiro.test(FALHOU) ad.test (Alternativa Anderson Darling) avo(v1 ~ v2, banco) residuals wilcox.test

Correlação Idade e Voto Estimulado

H0 - Idade e Voto Estimulado seguem a mesma distribuição

## 
##  Anderson-Darling normality test
## 
## data:  ResiduoIdade
## A = 205.09, p-value < 0.00000000000000022

Resultado: Os resíduos Não possuem uma distribuição normal

Próximo Passo:

Wilcoxon (se tiver menos de 3 levels na variável qualitativa) Kruskal (Se tiver mais de 3 levels na variável qualitativa)

Possuímos 2 levels (FHC e Lula). Logo, devemos fazer Wilcoxon

## 
##  Wilcoxon rank sum test with continuity correction
## 
## data:  Eleicao1998_2$Idade by Eleicao1998_2$`Voto Estimulado`
## W = 24981677, p-value = 0.0000000001022
## alternative hypothesis: true location shift is not equal to 0

p-valor inferior a 0,05 = Não aceita H0. Portanto concluímos que Idade e Voto Estimulado não seguem uma mesma distribuição

Testes de Associação

passos a serem seguidos:

  1. Fazer o teste de Associação Qui-quadrado de Spearman

comandos utilizados;

chisq.test

Associação entre Voto Estimulado e Sexo

H0 - Sexo e Voto Estimulado associação

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  table(Eleicao1998_2$Sexo, Eleicao1998_2$`Voto Estimulado`)
## X-squared = 25.915, df = 1, p-value = 0.0000003567

p-value inferior a 0,05 = Não Aceita H0. Logo, conclue-se que Sexo e Voto Estimulado não possuem associação.

Associação entre Voto Estimulado e Escolaridade

H0 - Escolaridade e Voto Estimulado possuem associação

## 
##  Pearson's Chi-squared test
## 
## data:  Eleicao1998_2$Escolaridade and Eleicao1998_2$`Voto Estimulado`
## X-squared = 64.846, df = 8, p-value = 0.00000000005177

p-value inferior a 0,05 = Não Aceita H0. Logo, conclue-se que Escolaridade e Voto Estimulado não seguem a mesma distribuição.

Associação entre Voto Estimulado e Aprovação do Plano Real

H0 - Avaliação do Plano Real e Voto Estimulado possuem associação

## 
##  Pearson's Chi-squared test
## 
## data:  Eleicao1998_2$`Aprovacao Plano Real` and Eleicao1998_2$`Voto Estimulado`
## X-squared = 3071.9, df = 6, p-value < 0.00000000000000022

p-value inferior a 0,05 = Não Aceita H0. Logo, conclue-se que a Avaliação do Plano Real e Voto Estimulado não possuem associação.

Associação entre Voto Estimulado e Identificação Partidária

H0 - Identificação Partidária e Voto Estimulado possuem associação

## 
##  Pearson's Chi-squared test
## 
## data:  Eleicao1998_2$Partido and Eleicao1998_2$`Voto Estimulado`
## X-squared = 3162.9, df = 12, p-value < 0.00000000000000022

p-value inferior a 0,05 = Não Aceita H0. Logo, conclue-se que a Identificação partidária e Voto Estimulado não possuem associação.

Associação entre Voto Estimulado e Renda

H0 - Renda e Voto Estimulado possuem associação

## 
##  Pearson's Chi-squared test
## 
## data:  Eleicao1998_2$`Faixa Renda` and Eleicao1998_2$`Voto Estimulado`
## X-squared = 24.564, df = 9, p-value = 0.003493

p-value inferior a 0,05 = Não Aceita H0. Logo, conclue-se que a Renda e Voto Estimulado não possuem associação.

Conclusão dos Testes:

Todas as hipóteses levantadas por nós ao início do trabalho foram estatisticamente refutadas.

Próximo passo: Restringir ainda mais o banco. Agora faremos um subgrupo com partidos, onde adicionaremos apenas o PSDB e o PT. Após isso, faremos outro subset, só que com Avaliação do Plano Real com dois níveis de fatores: Bom e Ruim.

Passo 10 - Criar os Subgrupos

## # A tibble: 7,197 x 16
##    Sexo  Idade `Faixa Etária` `Voto Espontane… `Voto Estimulad… `Faixa de Desem…
##    <fct> <dbl>      <dbl+lbl> <fct>            <fct>                   <dbl+lbl>
##  1 Masc…    69 6 [60 anos ou… FHC              FHC                   2 [Bom]    
##  2 Masc…    31 3 [25 a 34 an… FHC              FHC                   2 [Bom]    
##  3 Femi…    28 3 [25 a 34 an… FHC              FHC                   2 [Bom]    
##  4 Femi…    18 2 [18 a 24 an… FHC              FHC                   1 [Ótimo]  
##  5 Masc…    33 3 [25 a 34 an… Lula             Lula                  3 [regular]
##  6 Femi…    41 4 [35 a 44 an… FHC              FHC                   2 [Bom]    
##  7 Masc…    64 6 [60 anos ou… FHC              FHC                   2 [Bom]    
##  8 Femi…    23 2 [18 a 24 an… FHC              FHC                   2 [Bom]    
##  9 Masc…    36 4 [35 a 44 an… FHC              FHC                   2 [Bom]    
## 10 Masc…    26 3 [25 a 34 an… Lula             Lula                  5 [Péssimo]
## # … with 7,187 more rows, and 10 more variables: `Nota para o governo
## #   FHC` <dbl+lbl>, `Aprovacao Plano Real` <fct>, Emprego <dbl+lbl>,
## #   Partido <fct>, Cerveja <dbl+lbl>, Escolaridade <fct>, `Faixa Renda` <fct>,
## #   Entrevistador <dbl>, Questionario <dbl>, `Coluna Extra` <chr>
## # A tibble: 2,727 x 16
##    Sexo  Idade `Faixa Etária` `Voto Espontane… `Voto Estimulad… `Faixa de Desem…
##    <fct> <dbl>      <dbl+lbl> <fct>            <fct>                   <dbl+lbl>
##  1 Masc…    38 4 [35 a 44 an… Lula             Lula                  3 [regular]
##  2 Masc…    22 2 [18 a 24 an… FHC              FHC                   2 [Bom]    
##  3 Masc…    32 3 [25 a 34 an… FHC              FHC                   2 [Bom]    
##  4 Masc…    67 6 [60 anos ou… FHC              FHC                   1 [Ótimo]  
##  5 Masc…    46 5 [45 a 59 an… FHC              FHC                   3 [regular]
##  6 Masc…    56 5 [45 a 59 an… FHC              FHC                   2 [Bom]    
##  7 Masc…    30 3 [25 a 34 an… FHC              FHC                   2 [Bom]    
##  8 Masc…    66 6 [60 anos ou… Lula             Lula                  5 [Péssimo]
##  9 Femi…    27 3 [25 a 34 an… Lula             Lula                  3 [regular]
## 10 Masc…    17 1 [16 e 17 an… FHC              FHC                   2 [Bom]    
## # … with 2,717 more rows, and 10 more variables: `Nota para o governo
## #   FHC` <dbl+lbl>, `Aprovacao Plano Real` <fct>, Emprego <dbl+lbl>,
## #   Partido <fct>, Cerveja <dbl+lbl>, Escolaridade <fct>, `Faixa Renda` <fct>,
## #   Entrevistador <dbl>, Questionario <dbl>, `Coluna Extra` <chr>
##         Sexo          Idade        Faixa Etária   Voto Espontaneo
##  Masculino:1599   Min.   :16.00   Min.   :1.000   FHC : 813      
##  Feminino :1128   1st Qu.:25.00   1st Qu.:3.000   Lula:1914      
##                   Median :33.00   Median :3.000                  
##                   Mean   :35.54   Mean   :3.504                  
##                   3rd Qu.:43.00   3rd Qu.:4.000                  
##                   Max.   :81.00   Max.   :6.000                  
##                                                                  
##  Voto Estimulado Faixa de Desempenho FHC Nota para o governo FHC
##  FHC : 813       Min.   : 1.000          Min.   : 1.000         
##  Lula:1914       1st Qu.: 2.000          1st Qu.: 5.000         
##                  Median : 3.000          Median : 6.000         
##                  Mean   : 3.263          Mean   : 6.596         
##                  3rd Qu.: 4.000          3rd Qu.: 8.000         
##                  Max.   :97.000          Max.   :12.000         
##                                                                 
##  Aprovacao Plano Real    Emprego          Partido        Cerveja      
##  Ótimo  :238          Min.   : 1.000   PT     :2084   Min.   : 0.000  
##  Bom    :961          1st Qu.: 1.000   PSDB   : 643   1st Qu.: 1.000  
##  Regular:999          Median : 4.000   PMDB   :   0   Median : 7.000  
##  Ruim   :273          Mean   : 5.892   PPB    :   0   Mean   : 8.946  
##  Péssimo:243          3rd Qu.:10.000   PTB    :   0   3rd Qu.:16.000  
##  NS     : 12          Max.   :16.000   PRN    :   0   Max.   :19.000  
##  NR     :  1                           (Other):   0                   
##               Escolaridade                 Faixa Renda  Entrevistador   
##  Primário completo  :675   R$651,00~R$1.300,00   :694   Min.   :0.0000  
##  Colegial completo  :608   R$391,00~R$650,00     :538   1st Qu.:0.7400  
##  Colegial incompleto:394   até R$260,00          :440   Median :0.9519  
##  Ginasial completo  :328   R$1.301,00~R$2.600,00 :410   Mean   :0.8653  
##  Analfabeto         :314   De R$261,00 ~R$390,00 :320   3rd Qu.:1.1031  
##  Superior completo  :184    R$2.601,00~R$6.500,00:219   Max.   :2.5691  
##  (Other)            :224   (Other)               :106                   
##   Questionario   Coluna Extra      
##  Min.   :    2   Length:2727       
##  1st Qu.: 4144   Class :character  
##  Median : 8638   Mode  :character  
##  Mean   : 9570                     
##  3rd Qu.:15176                     
##  Max.   :20607                     
## 
##         Sexo          Idade        Faixa Etária   Voto Espontaneo
##  Masculino:3781   Min.   :16.00   Min.   :1.000   FHC :5021      
##  Feminino :3416   1st Qu.:25.00   1st Qu.:3.000   Lula:2176      
##                   Median :35.00   Median :4.000                  
##                   Mean   :37.58   Mean   :3.665                  
##                   3rd Qu.:47.00   3rd Qu.:5.000                  
##                   Max.   :94.00   Max.   :6.000                  
##                                                                  
##  Voto Estimulado Faixa de Desempenho FHC Nota para o governo FHC
##  FHC :5021       Min.   :1.000           Min.   : 1.000         
##  Lula:2176       1st Qu.:2.000           1st Qu.: 6.000         
##                  Median :2.000           Median : 8.000         
##                  Mean   :2.606           Mean   : 7.417         
##                  3rd Qu.:3.000           3rd Qu.: 9.000         
##                  Max.   :6.000           Max.   :12.000         
##                                                                 
##  Aprovacao Plano Real    Emprego                      Partido    
##  Ótimo  :   0         Min.   : 1.000   Nenhum/não tem     :3533  
##  Bom    :6458         1st Qu.: 2.000   PT                 : 869  
##  Regular:   0         Median : 7.000   PMDB               : 860  
##  Ruim   : 739         Mean   : 6.377   Nomes e referências: 688  
##  Péssimo:   0         3rd Qu.:11.000   PFL                : 375  
##  NS     :   0         Max.   :16.000   PSDB               : 365  
##  NR     :   0                          (Other)            : 507  
##     Cerveja                   Escolaridade                  Faixa Renda  
##  Min.   : 0.00   Primário completo  :1981   até R$260,00          :1711  
##  1st Qu.: 1.00   Analfabeto         :1651   R$391,00~R$650,00     :1407  
##  Median : 9.00   Colegial completo  :1313   R$651,00~R$1.300,00   :1400  
##  Mean   : 9.28   Colegial incompleto: 863   De R$261,00 ~R$390,00 :1005  
##  3rd Qu.:16.00   Ginasial completo  : 751   R$1.301,00~R$2.600,00 : 887  
##  Max.   :19.00   Superior completo  : 308    R$2.601,00~R$6.500,00: 419  
##                  (Other)            : 330   (Other)               : 368  
##  Entrevistador     Questionario   Coluna Extra      
##  Min.   :0.0000   Min.   :    3   Length:7197       
##  1st Qu.:0.7424   1st Qu.: 4960   Class :character  
##  Median :0.9898   Median :10067   Mode  :character  
##  Mean   :0.8865   Mean   :10077                     
##  3rd Qu.:1.1352   3rd Qu.:15222                     
##  Max.   :2.7048   Max.   :20610                     
## 

Passo 11 - Gerar Gráficos

Barplot de Intenção de Voto (Lula e FHC) por Partidos (PT e PSDB)

Barplot de Intenção de Voto por Avaliação do Plano Real

Passo 12 - Fazer os Testes de Associação nos subgrupos criados

## 
##  Pearson's Chi-squared test with Yates' continuity correction
## 
## data:  Partidos_dim$Partido and Partidos_dim$`Voto Estimulado`
## X-squared = 1425.2, df = 1, p-value < 0.00000000000000022