Vamos carregar o banco de dados. Depois disso, vamos fazer uma limpeza deste para depois começas a fazer as estatísticas.
# Carregar o banco de dados
load("C:/Users/Marcus Tulio/Desktop/MESTRADO2022_1/DISCIPLINAS/Estatistica/Mestrado_engenharia/Base_de_dados-master/Base_de_dados-master/CARROS.RData")
Aqui vamos pegar as variáveis Tipodemarcha e tipodecombustíveis e transformar em variáveis qualitativas.
# Limpeza das Variáveis
CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,"Gas","Alc")
CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"Auto","Manual")
Aqui vamos ver o conceito inicial de BOXPLOT
boxplot(CARROS$Preco,
col = "red",main="Boxplot do Preço do Carro",
horizontal = TRUE)
v1 <- c(1,2,3,4,5)
v1
## [1] 1 2 3 4 5
plot(v1)
# Qual é a média e a mediana de v1?
mean(v1)
## [1] 3
median(v1)
## [1] 3
v2 <- c(1,2,3,4,50000)
50000 é um outlier
# Qual é a média e a mediana de v2?
mean(v2)
## [1] 10002
median(v2)
## [1] 3
Em Resumo:
1) A média só deve ser usada em variáveis (distribuições) levemente assimétricas;
2) Quando há a presença de outliers, a mediana não muda mas a média muda. Então na presença de outliers recomenda-se usar a mediana.
# Quantitativa = preço do carro
# Qualiitativa = Tipo de marcha
boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
main="Gráfico 1 - boxplot do Preço por Tipo de Marcha",
col=c("pink","Skyblue"),
ylab = "Preco do Carro",
xlab = "Tipo de Marcha")
# Quantitativa = km/l
# Qualiitativa = Tipo de Combustível
boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
main="Gráfico 2 - boxplot do km/l por Tipo de Combustível",
col=c("red","blue"),
xlab = "km/l",
ylab = "Tipo de Combustível")
# Quantitativa = HP
# Qualiitativa = Tipo de Marcha
boxplot(HP ~ TipodeMarcha, data = CARROS,
main="Gráfico 3",
col=c("red","blue"),
xlab = "HP",
ylab = "Tipo de Marcha",
horizontal = TRUE)
Quantitativa = preço do carro Qualitativa = Tipo de marcha Olhando a função add_header_lines
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
library(flextable)
CARROS %>% select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(Média=round(mean(Preco),1),
Mediana=median(Preco),
Desvio_Padrão = round(sd(Preco),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 1 - Estatísticas do Preço do Carro") %>%
theme_tron()
Tabela 1 - Estatísticas do Preço do Carro | ||||
TipodeMarcha | Média | Mediana | Desvio_Padrão | Tamanho |
Auto | 290 | 276 | 110 | 19 |
Manual | 144 | 120 | 87 | 13 |
Quantitativa = km/l Qualiitativa = Tipo de Combustível
CARROS %>% select(Kmporlitro,Tipodecombustivel) %>%
group_by(Tipodecombustivel) %>%
summarise(Média=round(mean(Kmporlitro),1),
Mediana=median(Kmporlitro),
Desvio_Padrão = round(sd(Kmporlitro),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 2 - Estatísticas do km/l do Carro") %>%
theme_vader()
Tabela 2 - Estatísticas do km/l do Carro | ||||
Tipodecombustivel | Média | Mediana | Desvio_Padrão | Tamanho |
Alc | 25 | 23 | 5.4 | 14 |
Gas | 17 | 16 | 3.9 | 18 |
Variável de Interesse (Variável Resposta/Quantitativa Contínua): HP Preditores Lineares (Qualitativa Nominal): Marcha e Combustível
CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
group_by(TipodeMarcha,Tipodecombustivel) %>%
summarise(media=mean(HP)) %>% View()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.
CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
group_by(TipodeMarcha,Tipodecombustivel) %>%
summarise(Média=round(mean(HP),1),
Mediana=median(HP),
'Desvio Padrão' = round(sd(HP),1),
Tamanho=n()) %>%
flextable() %>%
add_header_lines("Tabela 3 - Estatísticas do HP por Marcha e Combustível") %>%
theme_tron_legacy()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.
Tabela 3 - Estatísticas do HP por Marcha e Combustível | |||||
TipodeMarcha | Tipodecombustivel | Média | Mediana | Desvio Padrão | Tamanho |
Auto | Alc | 102 | 105 | 21 | 7 |
Auto | Gas | 194 | 180 | 33 | 12 |
Manual | Alc | 81 | 66 | 24 | 7 |
Manual | Gas | 181 | 142 | 99 | 6 |
Variável de Interesse (Variável Resposta/Quantitativa Contínua): Preço e km/l Preditor Linear (Qualitativa Nominal): Tipo de Marcha
CARROS %>% select(Preco,Kmporlitro,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(média_preço=round(mean(Preco),1),
dp_preço=round(sd(Preco),1),
média_km_l=round(mean(Kmporlitro),1),
dp_km_l=round(sd(Kmporlitro),1)) %>%
flextable() %>%
add_header_lines("Tabela 4 - Estatísticas do Preço e km/l por Tipo de Marcha") %>%
theme_zebra()
Tabela 4 - Estatísticas do Preço e km/l por Tipo de Marcha | ||||
TipodeMarcha | média_preço | dp_preço | média_km_l | dp_km_l |
Auto | 290 | 110 | 17 | 3.8 |
Manual | 144 | 87 | 24 | 6.2 |
Qual a relação de Preço do Carro com o Tipo de Marcha Dado que ele é um carro a álcool?
CARROS %>%filter(Tipodecombustivel=='Alc') %>%
select(Preco,TipodeMarcha) %>%
group_by(TipodeMarcha) %>%
summarise(média=mean(Preco),
mediana=median(Preco)) %>%
flextable() %>%
add_header_lines("Tabela 5 Estatisticas do Preço por
tipo de marcha para carros a alc")
Tabela 5 Estatisticas do Preço por | ||
TipodeMarcha | média | mediana |
Auto | 175 | 168 |
Manual | 90 | 79 |
No dia de hoje olhamos o relacionamento de variáveis qualitativas e quantitativas O R é admirável!!!