Introdução

O primeiro passo dessa análise será a importação dos dados para o R. Assim, vamos carregar os dados “RDATA” e importar os dados via função readxl

load("/home/steven/Base_de_dados-master/CARROS_cat.RData")
load("/home/steven/Base_de_dados-master/Bussab.RData")
library(readxl)
Familias <- read_excel("~/Base_de_dados-master/Familias.xls")

Olhar as bases de dados

summary(Bussab)
##      Casado           Instr            Filhos         Renda       
##  Min.   :0.0000   Min.   :0.0000   Min.   :0.00   Min.   : 4.000  
##  1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:1.00   1st Qu.: 7.553  
##  Median :1.0000   Median :1.0000   Median :2.00   Median :10.165  
##  Mean   :0.5556   Mean   :0.8333   Mean   :1.65   Mean   :11.122  
##  3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:2.00   3rd Qu.:14.060  
##  Max.   :1.0000   Max.   :2.0000   Max.   :5.00   Max.   :23.300  
##                                    NA's   :16                     
##      Idade            Proced   Casado_fator          Instru\xe7\xe3o
##  Min.   :21.00   Capital :11   Sim   :20    Fundamental:12          
##  1st Qu.:30.75   Interior:12   N\xe3o:16    M\xe9dio   :18          
##  Median :34.50   Outro   :13                Superior   : 6          
##  Mean   :35.06                                                      
##  3rd Qu.:41.00                                                      
##  Max.   :49.00                                                      
## 
#str(Bussab)

Temos problemas de enconding na base de dados. Precisamos corrigir.

Limpeza de dados

names(Bussab)[8] <- "Escolaridade"

Bussab$Escolaridade <- iconv(Bussab$Escolaridade, "latin1", "UTF-8")
Bussab$Casado_fator <- iconv(Bussab$Casado_fator, "latin1", "UTF-8")

library(dplyr)
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
Bussab = Bussab %>% select(-Casado,-Instr) 

## Perguntas de pesquisa

  1. Quem tem escolaridade media nao precisa do P.A.P?
  2. Quem mora no bairro Monte Verde nao precisa do P.A.P?
  3. Quem tem escolaridade Média nao eh casado?
  4. Quem eh da capital nao eh casado?
  5. a audi tem mais carros automaticos que a chevrolet?
  6. os modelos 2008 sao automaticos?

Operacionalizar

Variável resposta (variável dependente) P.A.P (familias) Casado (Bussab) Transmissão (Carros)

Variáveis explicativas (variáveis independentes) escolaridade, bairro (familias) escolaridade, proc (Bussab) fabricante, ano (CArros)

Estatísticas (qualitativas vs qualitativas)

T1 = table(Familias$instr,Familias$p.a.p)
T1
##                     
##                      Não usa Usa
##   Ensino fundamental      16  22
##   Ensino médio            19  25
##   Sem Instrução            7  31
prop.table(T1,1)
##                     
##                        Não usa       Usa
##   Ensino fundamental 0.4210526 0.5789474
##   Ensino médio       0.4318182 0.5681818
##   Sem Instrução      0.1842105 0.8157895
prop.table(T1,2)
##                     
##                        Não usa       Usa
##   Ensino fundamental 0.3809524 0.2820513
##   Ensino médio       0.4523810 0.3205128
##   Sem Instrução      0.1666667 0.3974359
round(prop.table(T1,1)*100,digits = 1)
##                     
##                      Não usa  Usa
##   Ensino fundamental    42.1 57.9
##   Ensino médio          43.2 56.8
##   Sem Instrução         18.4 81.6
barplot(T1)

bp <- barplot(T1,
        col=c("skyblue","tomato3","lightyellow"),
        main = "Gráfico 1 - Uso do Programa de Alimentação Popular por Escolaridade",
        horiz = FALSE,beside=TRUE,
        legend.text = rownames(T1), 
        args.legend = list(x = "topleft"))

#text(bp, 2, rotulo,cex=1.6,pos=3,col = "black")


percentual <- round(prop.table(T1,1)*100,digits = 1)
percentual
##                     
##                      Não usa  Usa
##   Ensino fundamental    42.1 57.9
##   Ensino médio          43.2 56.8
##   Sem Instrução         18.4 81.6
rotulo <- paste0(percentual,"%")
rotulo
## [1] "42.1%" "43.2%" "18.4%" "57.9%" "56.8%" "81.6%"
text(bp, 0, rotulo,cex=1.6,pos=3,col = "black")

Familias %>% filter(local=="Monte Verde") %>% select(p.a.p) %>% table() %>% pie()

T2 = table(Familias$local,Familias$p.a.p)
T2
##                     
##                      Não usa Usa
##   Encosta do Morro        12  25
##   Monte Verde             18  22
##   Parque da Figueira      12  31
percentual2 = round(prop.table(T2,1)*100,1)
percentual2 
##                     
##                      Não usa  Usa
##   Encosta do Morro      32.4 67.6
##   Monte Verde           45.0 55.0
##   Parque da Figueira    27.9 72.1
rotulo2 = paste0(percentual2,"%")
rotulo2
## [1] "32.4%" "45%"   "27.9%" "67.6%" "55%"   "72.1%"
bp2 <- barplot(T2,
              col=c("darkblue","darkred","gold"),
              main = "Gráfico 1 - Uso do Programa de Alimentação Popular por Bairro",
              horiz = FALSE,beside=TRUE,
              legend.text = rownames(T2), 
              args.legend = list(x = "topleft"))

text(bp, 2, rotulo2,cex=1.6,pos=3,col = "white")

# T3 = table(Bussab$Escolaridade,Bussab$Casado_fator)
# T3
# percentual3 = round(prop.table(T3,1)*100,1)
# percentual3
# 
# rotulo3 = paste0(percentual3,"%")
# 
# bp3 <- barplot(T3,
#                col=c("darkblue","darkred","gold"),
#                main = "Gráfico 3 - Casados por Escolaridade",
#                horiz = FALSE,beside=TRUE,
#                legend.text = rownames(T3), 
#                args.legend = list(x = "topleft"))

#text(bp3, 0, rotulo3,cex=2,pos=3,col = "white")

Conclusão

Para duas variáveis qualitativas, podemos: 1. Fazer tabela 2. Proporções 3. Gráficos de barras

Ficou faltando 4. Gráfico do tipo mosaico 5. Razão de Chances (Odds Ratio)