Vamos carregar o banco de dados. Após isso, vamos fazer uma limpeza no banco de dados para depois começar a fazer as estatísticas.
load("C:/Users/Windows 10/Documents/MESTRADO - UFF/Estatistica aplicada a engenharia/Base_de_dados-master/CARROS.RData")Aqui vamos pegar as variáveis TipodeMarcha e TipodeCombustivel e transformar em variáveis quaitativas.
CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,"Gas","Alc")
CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"Auto","Manual")Aqui vamos ver o conceito inicial de BOXPLOT
boxplot(CARROS$Peso,
col= "red", main="Boxplot do preço do carro",
horizontal=TRUE)Quando devo usar a média? QUando devo usar a mediana?
v1 <-c(1,2,3,4,5)
v1## [1] 1 2 3 4 5
plot(v1)# Qual a média de v1?
mean(v1)## [1] 3
# Qual a mediana de v1?
median(v1)## [1] 3
v2 <- c(1,2,3,4,50000)50000 é um outlier
plot(v2)# Qual a média de v2?
mean(v2)## [1] 10002
# Qual a mediana de v2?
median(v2)## [1] 3
Em resumo:
quantitativa = preço qualitativa = tipo de marcha
boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
main="Gráfico 1 - boxplot do preço por tipo de marcha",
col=c("pink","skyblue"),
xlab="Preço do Carro",
ylab="Tipo de marcha",
horizontal = TRUE)quantitativa = km/l qualitativa = tipo de combustivel
boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
main="Gráfico 2 - boxplot do km/l por tipo de combustivel",
col=c("red","blue"),
xlab="Km/L",
ylab="Tipo de combustível",
horizontal = TRUE)quantitativa = hp qualitativa = tipo de marcha
boxplot(HP ~ TipodeMarcha, data = CARROS,
main="Gráfico 3 - boxplot do tipo de marcha por HP",
col=c("red","blue"),
xlab="HP",
ylab="Tipo de marcha",
horizontal = TRUE)quantitativa = preço qualitativa = tipo de marcha
library(dplyr)##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
CARROS %>% select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(Preco),1),
Mediana=median(Preco),
'Desvio Padrão'=round(sd(Preco),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 1 - Estatísticas do preço do carro") %>%
theme_vader()Tabela 1 - Estatísticas do preço do carro | ||||
TipodeMarcha | Média | Mediana | Desvio Padrão | Tamanho |
Auto | 290 | 276 | 110 | 19 |
Manual | 144 | 120 | 87 | 13 |
quantitativa = km/l qualitativa = tipo de combustivel
CARROS %>% select(Kmporlitro,Tipodecombustivel) %>%
group_by(Tipodecombustivel) %>%
summarise(Média=round(mean(Kmporlitro),1),
Mediana=median(Kmporlitro),
'Desvio Padrão'=round(sd(Kmporlitro),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 2 - Estatísticas do Km/L do carro") %>%
theme_vader()Tabela 2 - Estatísticas do Km/L do carro | ||||
Tipodecombustivel | Média | Mediana | Desvio Padrão | Tamanho |
Alc | 25 | 23 | 5.4 | 14 |
Gas | 17 | 16 | 3.9 | 18 |
quantitativa = hp qualitativa = tipo de marcha
CARROS %>% select(HP,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(HP),1),
Mediana=median(HP),
'Desvio Padrão'=round(sd(HP),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 3 - Estatísticas do HP do carro") %>%
theme_vader()Tabela 3 - Estatísticas do HP do carro | ||||
TipodeMarcha | Média | Mediana | Desvio Padrão | Tamanho |
Auto | 160 | 175 | 54 | 19 |
Manual | 127 | 109 | 84 | 13 |
Variável de interesse (Variável resposta): HP Variaveis qualitativas - Preditores lineares: Marcha e Combustível
CARROS %>% select(HP, TipodeMarcha, Tipodecombustivel) %>%
group_by(TipodeMarcha,Tipodecombustivel) %>%
summarise(Média=round(mean(HP),1),
Mediana=round(median(HP),1),
'Desvio Padrão'=round(sd(HP),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 4 - Estatísticas do HP por marcha e combustivel") %>%
theme_tron_legacy()## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.
Tabela 4 - Estatísticas do HP por marcha e combustivel | |||||
TipodeMarcha | Tipodecombustivel | Média | Mediana | Desvio Padrão | Tamanho |
Auto | Alc | 102 | 105 | 21 | 7 |
Auto | Gas | 194 | 180 | 33 | 12 |
Manual | Alc | 81 | 66 | 24 | 7 |
Manual | Gas | 181 | 142 | 99 | 6 |
Variaveis de interesse: Preço do carro e Km/L Preditor linear: Tipo de marcha
CARROS %>% select(Preco, Kmporlitro, TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média_Preço=round(mean(Preco),1),
dp_preço=round(sd(Preco),1),
'média_km/l'=round(mean(Kmporlitro),1),
dp_km_l=round(sd(Kmporlitro),1)) %>%
flextable() %>%
add_header_lines("Tabela 5 - Estatísticas do preço e km/l por tipo de marcha") %>%
theme_zebra()Tabela 5 - Estatísticas do preço e km/l por tipo de marcha | ||||
TipodeMarcha | Média_Preço | dp_preço | média_km/l | dp_km_l |
Auto | 290 | 110 | 17 | 3.8 |
Manual | 144 | 87 | 24 | 6.2 |
Qual a relação do preço do carro com o tipo de marcha dado que ele é um carro a alcool?
CARROS %>% filter(Tipodecombustivel=='Alc') %>%
select(Preco, TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(Preco),1),
Mediana=round(median(Preco),1)) %>%
flextable() %>%
add_header_lines("Tabela 6 - Estatísticas do preço por tipo de marcha para carros a alcool") %>%
bg(j = "Média", bg = "skyblue", part = "body") %>%
bg(j = "Mediana", bg = "pink", part = "body") %>%
bg(j = "TipodeMarcha", bg = "lightyellow", part = "body") Tabela 6 - Estatísticas do preço por tipo de marcha para carros a alcool | ||
TipodeMarcha | Média | Mediana |
Auto | 175 | 168 |
Manual | 90 | 79 |
Hoje olhamos relacionament de variáveis qualitativas com variáveis quantitativas.
O R é demais!
Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2022). dplyr: A Grammar of Data Manipulation. R package version 1.0.8. https://CRAN.R-project.org/package=dplyr
David Gohel (2022). flextable: Functions for Tabular Reporting. R package version 0.7.0. https://CRAN.R-project.org/package=flextable