load("~/BASE DE DADOS UNIRIO/CARROS_cat.RData")
load("~/BASE DE DADOS UNIRIO/Bussab.RData")
library(readxl)
<- read_excel("BASE DE DADOS UNIRIO/Familias.xls")
Familias View(Familias)
Análise de Variável Quantitativa
#Introdução
#O primeiro passo dessa análise será a importação dos dados para o R. Assim, vamos carregar os dados “RDATA”e importar os dados via função “read_xl”
#Olhar a base de dados
summary(Bussab)
Casado Instr Filhos Renda
Min. :0.0000 Min. :0.0000 Min. :0.00 Min. : 4.000
1st Qu.:0.0000 1st Qu.:0.0000 1st Qu.:1.00 1st Qu.: 7.553
Median :1.0000 Median :1.0000 Median :2.00 Median :10.165
Mean :0.5556 Mean :0.8333 Mean :1.65 Mean :11.122
3rd Qu.:1.0000 3rd Qu.:1.0000 3rd Qu.:2.00 3rd Qu.:14.060
Max. :1.0000 Max. :2.0000 Max. :5.00 Max. :23.300
NA's :16
Idade Proced Casado_fator Instru\xe7\xe3o
Min. :21.00 Capital :11 Sim :20 Fundamental:12
1st Qu.:30.75 Interior:12 N\xe3o:16 M\xe9dio :18
Median :34.50 Outro :13 Superior : 6
Mean :35.06
3rd Qu.:41.00
Max. :49.00
Temos problemas de enconding na base de dados. Precisamos corrigir.
#Limpeza de dados
names(Bussab)[8] <- "Escolaridade"
$Escolaridade <- iconv(Bussab$Escolaridade, "latin1", "UTF-8")
Bussab$Casado_fator <- iconv(Bussab$Casado_fator, "latin1", "UTF-8")
Bussab
library(dplyr)
Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':
filter, lag
Os seguintes objetos são mascarados por 'package:base':
intersect, setdiff, setequal, union
Anexando pacote: ‘dplyr’
Os seguintes objetos são mascarados por ‘package:stats’:
##filter, lag
Os seguintes objetos são mascarados por ‘package:base’:
##intersect, setdiff, setequal, union
Perguntas de pesquisa
#1. Quem tem escolaridade media nao precisa do P.A.P? #2. Quem mora no bairro Monte Verde nao precisa do P.A.P? #3. Quem tem escolaridade Média nao eh casado? #4. Quem eh da capital nao eh casado? #5. A audi tem mais carros automaticos que a chevrolet? #6. Os modelos 2008 sao automaticos?
##Operacionalizar #Variável resposta (variável dependente), P.A.P (familias), Casado (Bussab), Transmissão (Carros)
##Variáveis explicativas (variáveis independentes), escolaridade, bairro (familias), escolaridade, proc (Bussab), fabricante, ano (Carros)
##Estatísticas (quantitativas vs qualitativas)
= table(Familias$instr,Familias$p.a.p)
T1 T1
Não usa Usa
Ensino fundamental 16 22
Ensino médio 19 25
Sem Instrução 7 31
prop.table(T1,1)
Não usa Usa
Ensino fundamental 0.4210526 0.5789474
Ensino médio 0.4318182 0.5681818
Sem Instrução 0.1842105 0.8157895
prop.table(T1,2)
Não usa Usa
Ensino fundamental 0.3809524 0.2820513
Ensino médio 0.4523810 0.3205128
Sem Instrução 0.1666667 0.3974359
round(prop.table(T1,1)*100,digits = 1)
Não usa Usa
Ensino fundamental 42.1 57.9
Ensino médio 43.2 56.8
Sem Instrução 18.4 81.6
=barplot(T1,col = c("pink","red","orange"),
bpmain = "Gráfico 1 - Uso do Programa de Alimentação Popular por Escolaridade",
horiz=FALSE,beside = TRUE,
legend.text =rownames(T1),args.legend = list(x = "topleft"))
#text(bp, 2, rotulo,cex=1.6,pos=3,col = "black")
=round(prop.table(T1,1)*100,digits=1)
percentual percentual
Não usa Usa
Ensino fundamental 42.1 57.9
Ensino médio 43.2 56.8
Sem Instrução 18.4 81.6
<- paste0(percentual,"%")
rotulo rotulo
[1] "42.1%" "43.2%" "18.4%" "57.9%" "56.8%" "81.6%"
text(bp,0,rotulo,cex=1.6,pos=3,col="black")
%>% filter(local=="Monte Verde") %>% select(p.a.p) %>% table() %>% pie() Familias
= table(Familias$local,Familias$p.a.p)
T2 T2
Não usa Usa
Encosta do Morro 12 25
Monte Verde 18 22
Parque da Figueira 12 31
= round(prop.table(T2,1)*100,1)
percentual2 percentual2
Não usa Usa
Encosta do Morro 32.4 67.6
Monte Verde 45.0 55.0
Parque da Figueira 27.9 72.1
= paste0(percentual2,"%")
rotulo2 rotulo2
[1] "32.4%" "45%" "27.9%" "67.6%" "55%" "72.1%"
<- barplot(T2,
bp2 col=c("darkblue","darkred","gold"),
main = "Gráfico 1 - Uso do Programa de Alimentação Popular por Bairro",
horiz = FALSE,beside=TRUE,
legend.text = rownames(T2),
args.legend = list(x = "topleft"))
text(bp, 2, rotulo2,cex=1.6,pos=3,col = "white")
# T3 = table(Bussab$Escolaridade,Bussab$Casado_fator)
# T3
# percentual3 = round(prop.table(T3,1)*100,1)
# percentual3
#
# rotulo3 = paste0(percentual3,"%")
#
# bp3 <- barplot(T3,
# col=c("darkblue","darkred","gold"),
# main = "Gráfico 3 - Casados por Escolaridade",
# horiz = FALSE,beside=TRUE,
# legend.text = rownames(T3),
# args.legend = list(x = "topleft"))
#text(bp3, 0, rotulo3,cex=2,pos=3,col = "white")
Conclusão Para duas variáveis qualitativas, podemos: 1. Fazer tabela 2. Proporções 3. Gráficos de barras
Ficou faltando 4. Gráfico do tipo mosaico 5. Razão de Chances (Odds Ratio)