Análise de Variável Quantitativa

Author

Larissa Ramos

#Introdução

#O primeiro passo dessa análise será a importação dos dados para o R. Assim, vamos carregar os dados “RDATA”e importar os dados via função “read_xl”

load("~/BASE DE DADOS UNIRIO/CARROS_cat.RData")
load("~/BASE DE DADOS UNIRIO/Bussab.RData")
library(readxl)
Familias <- read_excel("BASE DE DADOS UNIRIO/Familias.xls")
View(Familias)

#Olhar a base de dados

summary(Bussab)
     Casado           Instr            Filhos         Renda       
 Min.   :0.0000   Min.   :0.0000   Min.   :0.00   Min.   : 4.000  
 1st Qu.:0.0000   1st Qu.:0.0000   1st Qu.:1.00   1st Qu.: 7.553  
 Median :1.0000   Median :1.0000   Median :2.00   Median :10.165  
 Mean   :0.5556   Mean   :0.8333   Mean   :1.65   Mean   :11.122  
 3rd Qu.:1.0000   3rd Qu.:1.0000   3rd Qu.:2.00   3rd Qu.:14.060  
 Max.   :1.0000   Max.   :2.0000   Max.   :5.00   Max.   :23.300  
                                   NA's   :16                     
     Idade            Proced   Casado_fator          Instru\xe7\xe3o
 Min.   :21.00   Capital :11   Sim   :20    Fundamental:12          
 1st Qu.:30.75   Interior:12   N\xe3o:16    M\xe9dio   :18          
 Median :34.50   Outro   :13                Superior   : 6          
 Mean   :35.06                                                      
 3rd Qu.:41.00                                                      
 Max.   :49.00                                                      
                                                                    

Temos problemas de enconding na base de dados. Precisamos corrigir.

#Limpeza de dados

names(Bussab)[8] <- "Escolaridade"

Bussab$Escolaridade <- iconv(Bussab$Escolaridade, "latin1", "UTF-8")
Bussab$Casado_fator <- iconv(Bussab$Casado_fator, "latin1", "UTF-8")

library(dplyr)

Anexando pacote: 'dplyr'
Os seguintes objetos são mascarados por 'package:stats':

    filter, lag
Os seguintes objetos são mascarados por 'package:base':

    intersect, setdiff, setequal, union

Anexando pacote: ‘dplyr’

Os seguintes objetos são mascarados por ‘package:stats’:

##filter, lag

Os seguintes objetos são mascarados por ‘package:base’:

##intersect, setdiff, setequal, union

Perguntas de pesquisa

#1. Quem tem escolaridade media nao precisa do P.A.P? #2. Quem mora no bairro Monte Verde nao precisa do P.A.P? #3. Quem tem escolaridade Média nao eh casado? #4. Quem eh da capital nao eh casado? #5. A audi tem mais carros automaticos que a chevrolet? #6. Os modelos 2008 sao automaticos?

##Operacionalizar #Variável resposta (variável dependente), P.A.P (familias), Casado (Bussab), Transmissão (Carros)

##Variáveis explicativas (variáveis independentes), escolaridade, bairro (familias), escolaridade, proc (Bussab), fabricante, ano (Carros)

##Estatísticas (quantitativas vs qualitativas)

T1 = table(Familias$instr,Familias$p.a.p)
T1
                    
                     Não usa Usa
  Ensino fundamental      16  22
  Ensino médio            19  25
  Sem Instrução            7  31
prop.table(T1,1)
                    
                       Não usa       Usa
  Ensino fundamental 0.4210526 0.5789474
  Ensino médio       0.4318182 0.5681818
  Sem Instrução      0.1842105 0.8157895
prop.table(T1,2)
                    
                       Não usa       Usa
  Ensino fundamental 0.3809524 0.2820513
  Ensino médio       0.4523810 0.3205128
  Sem Instrução      0.1666667 0.3974359
round(prop.table(T1,1)*100,digits = 1)
                    
                     Não usa  Usa
  Ensino fundamental    42.1 57.9
  Ensino médio          43.2 56.8
  Sem Instrução         18.4 81.6
bp=barplot(T1,col = c("pink","red","orange"),
        main = "Gráfico 1 - Uso do Programa de Alimentação Popular por Escolaridade",
        horiz=FALSE,beside = TRUE,
        legend.text =rownames(T1),args.legend = list(x = "topleft"))

#text(bp, 2, rotulo,cex=1.6,pos=3,col = "black")

percentual=round(prop.table(T1,1)*100,digits=1)
percentual
                    
                     Não usa  Usa
  Ensino fundamental    42.1 57.9
  Ensino médio          43.2 56.8
  Sem Instrução         18.4 81.6
rotulo <- paste0(percentual,"%")
rotulo
[1] "42.1%" "43.2%" "18.4%" "57.9%" "56.8%" "81.6%"
text(bp,0,rotulo,cex=1.6,pos=3,col="black")

Familias %>% filter(local=="Monte Verde") %>% select(p.a.p) %>% table() %>% pie()

T2 = table(Familias$local,Familias$p.a.p)
T2
                    
                     Não usa Usa
  Encosta do Morro        12  25
  Monte Verde             18  22
  Parque da Figueira      12  31
percentual2 = round(prop.table(T2,1)*100,1)
percentual2
                    
                     Não usa  Usa
  Encosta do Morro      32.4 67.6
  Monte Verde           45.0 55.0
  Parque da Figueira    27.9 72.1
rotulo2 = paste0(percentual2,"%")
rotulo2
[1] "32.4%" "45%"   "27.9%" "67.6%" "55%"   "72.1%"
bp2 <- barplot(T2,
              col=c("darkblue","darkred","gold"),
              main = "Gráfico 1 - Uso do Programa de Alimentação Popular por Bairro",
              horiz = FALSE,beside=TRUE,
              legend.text = rownames(T2), 
              args.legend = list(x = "topleft"))

text(bp, 2, rotulo2,cex=1.6,pos=3,col = "white")

# T3 = table(Bussab$Escolaridade,Bussab$Casado_fator)
# T3
# percentual3 = round(prop.table(T3,1)*100,1)
# percentual3
# 
# rotulo3 = paste0(percentual3,"%")
# 
# bp3 <- barplot(T3,
#                col=c("darkblue","darkred","gold"),
#                main = "Gráfico 3 - Casados por Escolaridade",
#                horiz = FALSE,beside=TRUE,
#                legend.text = rownames(T3), 
#                args.legend = list(x = "topleft"))

#text(bp3, 0, rotulo3,cex=2,pos=3,col = "white")

Conclusão Para duas variáveis qualitativas, podemos: 1. Fazer tabela 2. Proporções 3. Gráficos de barras

Ficou faltando 4. Gráfico do tipo mosaico 5. Razão de Chances (Odds Ratio)