Vamos fazer uma análise de variável qualitativa.
Para isso, vamos fazer as tabelas, proporções e gráficos.
# passo 2
# Importar um arquivo do Excel
library(readxl)
## Warning: package 'readxl' was built under R version 4.2.3
restaurante <- read_excel("C:/Users/17717613778/Desktop/Base_de_dados-master/restaurante.xlsx")
View(restaurante)
# passo 3
# importar um arquivo do csv
library(readr)
## Warning: package 'readr' was built under R version 4.2.3
Fam <- read_delim("C:/Users/17717613778/Desktop/Base_de_dados-master/Familias2.csv",
delim = ";", escape_double = FALSE, trim_ws = TRUE)
## Rows: 120 Columns: 6
## ── Column specification ────────────────────────────────────────────────────────
## Delimiter: ";"
## chr (4): local, p.a.p, instr, renda
## dbl (2): familia, tam
##
## ℹ Use `spec()` to retrieve the full column specification for this data.
## ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
View(Fam)
# passo 4
# carregar um RData
load("C:/Users/17717613778/Desktop/Base_de_dados-master/CARROS.RData")
View(CARROS)
Depois de importar a base de dados, eu vou fazer a limpeza dos dados e corrigir os problemas.
summary(restaurante)
## Nome Bairro Tipo Avaliador
## Length:104 Length:104 Length:104 Min. :1.000
## Class :character Class :character Class :character 1st Qu.:1.000
## Mode :character Mode :character Mode :character Median :2.000
## Mean :1.827
## 3rd Qu.:2.000
## Max. :3.000
## Pontuacao restaurante Pontuacao serviço Pontuacao ambiente Preco
## Min. :1.800 Min. :3.000 Min. :3.000 Min. : 10.0
## 1st Qu.:5.500 1st Qu.:7.500 1st Qu.:7.500 1st Qu.: 25.0
## Median :6.800 Median :8.000 Median :8.000 Median : 45.0
## Mean :6.661 Mean :7.865 Mean :7.865 Mean : 46.3
## 3rd Qu.:8.125 3rd Qu.:8.625 3rd Qu.:8.625 3rd Qu.: 60.0
## Max. :9.800 Max. :9.500 Max. :9.500 Max. :130.0
summary(CARROS)
## Kmporlitro Cilindros Preco HP
## Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
## 1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
## Median :19.20 Median :6.000 Median :196.3 Median :123.0
## Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
## 3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
## Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
## Amperagem_circ_eletrico Peso RPM Tipodecombustivel
## Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
## 1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
## Median :3.695 Median :3.325 Median :17.71 Median :0.0000
## Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
## 3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
## Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
## TipodeMarcha NumdeMarchas NumdeValvulas
## Min. :0.0000 Min. :3.000 Min. :1.000
## 1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
## Median :0.0000 Median :4.000 Median :2.000
## Mean :0.4062 Mean :3.688 Mean :2.812
## 3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
## Max. :1.0000 Max. :5.000 Max. :8.000
summary(Fam)
## familia local p.a.p instr
## Min. : 1.00 Length:120 Length:120 Length:120
## 1st Qu.: 30.75 Class :character Class :character Class :character
## Median : 60.50 Mode :character Mode :character Mode :character
## Mean : 60.50
## 3rd Qu.: 90.25
## Max. :120.00
## tam renda
## Min. :1.000 Length:120
## 1st Qu.:3.750 Class :character
## Median :4.000 Mode :character
## Mean :4.492
## 3rd Qu.:5.000
## Max. :9.000
CARROS$TipodeMarcha = ifelse(CARROS$TipodeMarcha==0, "auto" , "manual")
CARROS$Tipodecombustivel = ifelse(CARROS$Tipodecombustivel ==0, "GAS" , "ALC")
Problemas identificados 1- na base de dados Fam temos a renda variável quantitativa armazenada como texto. 2- na base de dados CARROS o tipo de marcha e de combustível (variável qualitativa) está como quantitativa 3- Temos problemas de caracter especial na base de dados Fam
Vamos fazer uma e uma tabela de proporção a seguir.
tabela_combustível = table(CARROS$Tipodecombustivel)
tabela_combustível
##
## ALC GAS
## 14 18
tabela_marcha = table(CARROS$TipodeMarcha)
tabela_marcha
##
## auto manual
## 19 13
round(prop.table(tabela_combustível)*100 , 1)
##
## ALC GAS
## 43.8 56.2
round(prop.table(tabela_marcha)*100 , 1)
##
## auto manual
## 59.4 40.6
Aqui vamos plotar um “Gráfico de Pizza” para variáveis qualitativas.
pie(tabela_combustível)
pie(tabela_combustível, col = c("#004b80", "#00bef3"), main = "Meu gráfico de pizza")
barplot(tabela_marcha, col = c ("#004b80" , "#00bef3") , main = "Meu gráfico de barras")
library(waffle)
## Warning: package 'waffle' was built under R version 4.2.3
## Carregando pacotes exigidos: ggplot2
## Warning: package 'ggplot2' was built under R version 4.2.3
partes = c(Alcool = 44, Gasolina = 56)
waffle(partes)
waffle(partes, colors = c("#004b80" , "#00bef3"))
Tem mais carros movidos a gasolina do que a ácool na base. Temos mais carros do tipo automâtico do que manual nesta base de dados.