Vamos carregar o banco de dados. Depois disso, vamos fazer uma limpeza do banco de dados para depois começar a fazer as estatísticas.
# Carregar o banco de dados
load("C:/Users/Hp/Desktop/Base_de_dados-master/CARROS.RData")
Aqui vamos pegar as variáveis tipodemarcha e tipode combustivel e transformar em variáveis qualitativas.
# Limpeza das variáveis
CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,
"Gas","Alc")
CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,
"Auto","Manual")
Aqui vamos ver o conceito inicial de BOXPLOT
boxplot(CARROS$Preco,
col = "red",
main="Boxplot do preço do carro",
horizontal=TRUE)
quando devo usar a média?
quando devo usar a mediana?
#------------------------------------------
#------------------------------------------
v1 <- c(1,2,3,4,5)
v1
## [1] 1 2 3 4 5
plot(v1)
# qual é a média de v1?
mean(v1)
## [1] 3
# qual é a mediana de v1?
median(v1)
## [1] 3
#------------------------------------------
v2 <- c(1,2,3,4,50000)
50000 é um outlier
# qual é a média de v2?
mean(v2)
## [1] 10002
# qual é a mediana de v2?
median(v2)
## [1] 3
Em resumo: 1. a média é sensível a outliers
2. a média só pode ser usada em distribuições levemente assimétricas
# quantitativa = preço
# qualitativa = tipo de marcha
boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
main="Gráfico 1 - boxplot do preço por tipo de marcha",
col=c("pink","skyblue"),
ylab="Preço do carro",
xlab= "Tipo de marcha")
# quantitativa = km/l
# qualitativa = tipo de comb
boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
main="Gráfico 2 - boxplot do km/l por tipo de combustível",
col=c("red","blue"),
ylab="km/l",
xlab= "Tipo de combustível")
# quantitativa = HP
# qualitativa = tipo de marcha
boxplot(HP ~ TipodeMarcha, data = CARROS,
main="Gráfico 3",
col=c("red","blue"),
xlab="HP",
ylab= "Tipo de marcha",
horizontal = TRUE)
quantitativa = preço qualitativa = tipo de marcha
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
CARROS %>% select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(Preco),1),
Mediana=median(Preco),
`Desvio Padrão` = round(sd(Preco),1),
Tamanho=n()) %>%
flextable() %>%
theme_tron()
TipodeMarcha | Média | Mediana | Desvio Padrão | Tamanho |
Auto | 290 | 276 | 110 | 19 |
Manual | 144 | 120 | 87 | 13 |
olhando a função add_header_lines
CARROS %>% select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(Preco),1),
Mediana=median(Preco),
`Desvio Padrão` = round(sd(Preco),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 1 - Estatísticas do preço do carro") %>%
theme_tron()
Tabela 1 - Estatísticas do preço do carro | ||||
TipodeMarcha | Média | Mediana | Desvio Padrão | Tamanho |
Auto | 290 | 276 | 110 | 19 |
Manual | 144 | 120 | 87 | 13 |
quantitativa = Kmporlitro qualitativa = tipo de combustivel
CARROS %>% select(Kmporlitro,Tipodecombustivel) %>%
group_by(Tipodecombustivel) %>%
summarise(Média=round(mean(Kmporlitro),1),
Mediana=median(Kmporlitro),
`Desvio Padrão` = round(sd(Kmporlitro),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 2 - Estatísticas do Km/l do carro") %>%
theme_vader()
Tabela 2 - Estatísticas do Km/l do carro | ||||
Tipodecombustivel | Média | Mediana | Desvio Padrão | Tamanho |
Alc | 25 | 23 | 5.4 | 14 |
Gas | 17 | 16 | 3.9 | 18 |
Variável de interesse (variável resposta): HP Preditores lineares: Marcha e Combustível
CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
group_by(TipodeMarcha,Tipodecombustivel) %>%
summarise(Média=round(mean(HP),1),
Mediana=median(HP),
`Desvio Padrão` = round(sd(HP),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 3 - Estatísticas do HP por marcha e combustível") %>%
theme_tron_legacy()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.
Tabela 3 - Estatísticas do HP por marcha e combustível | |||||
TipodeMarcha | Tipodecombustivel | Média | Mediana | Desvio Padrão | Tamanho |
Auto | Alc | 102 | 105 | 21 | 7 |
Auto | Gas | 194 | 180 | 33 | 12 |
Manual | Alc | 81 | 66 | 24 | 7 |
Manual | Gas | 181 | 142 | 99 | 6 |
Variáveis de interesse: Preço e Km/l Preditor linear: Tipo de Marcha
CARROS %>% select(Preco,Kmporlitro,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(média_preço=round(mean(Preco),1),
dp_preço=round(sd(Preco),1),
`média_km/l`=round(mean(Kmporlitro),1),
`dp_km/l`=round(sd(Kmporlitro),1)) %>%
flextable() %>%
add_header_lines("Tabela 4 - Estatísticas do Preço e Km/l por tipo de marcha") %>%
theme_zebra()
Tabela 4 - Estatísticas do Preço e Km/l por tipo de marcha | ||||
TipodeMarcha | média_preço | dp_preço | média_km/l | dp_km/l |
Auto | 290 | 110 | 17 | 3.8 |
Manual | 144 | 87 | 24 | 6.2 |
Qual a relação do preço do carro com o tipo de marcha dado que ele é um carro a alc?
CARROS %>% filter(Tipodecombustivel=='Alc') %>%
select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=mean(Preco),
Mediana=median(Preco)) %>%
flextable() %>%
bg(j = "Média", bg = "skyblue", part = "body") %>%
bg(j = "Mediana", bg = "pink", part = "body") %>%
bg(j = "TipodeMarcha", bg = "lightyellow", part = "body") %>%
add_header_lines("Tabela 5 - Estatísticas do Preço por
tipo de marcha para carros a alc")
Tabela 5 - Estatísticas do Preço por | ||
TipodeMarcha | Média | Mediana |
Auto | 175 | 168 |
Manual | 90 | 79 |
Hoje olhamos relacionamento de variáveis qualitativas com variáveis quantitativas.
O R é demais!