Introdução

Vamos carregar o banco de dados. Após isso, vamos fazer uma limpeza no banco de dados para depois começar a fazer as estatísticas.

load("C:/Users/Windows 10/Documents/MESTRADO - UFF/Estatistica aplicada a engenharia/Base_de_dados-master/CARROS.RData")

Transformação de variáveis

Aqui vamos pegar as variáveis TipodeMarcha e TipodeCombustivel e transformar em variáveis quaitativas.

CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,"Gas","Alc")
CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"Auto","Manual")

boxplot

Aqui vamos ver o conceito inicial de BOXPLOT

boxplot(CARROS$Peso,
        col= "red", main="Boxplot do preço do carro",
        horizontal=TRUE)

A média e a mediana na prática

Quando devo usar a média? QUando devo usar a mediana?

v1 <-c(1,2,3,4,5)
v1
## [1] 1 2 3 4 5
plot(v1)

# Qual a média de v1?
mean(v1)
## [1] 3
# Qual a mediana de v1?
median(v1)
## [1] 3
v2 <- c(1,2,3,4,50000)

50000 é um outlier

plot(v2)

# Qual a média de v2?
mean(v2)
## [1] 10002
# Qual a mediana de v2?
median(v2)
## [1] 3

Em resumo:

  1. A média é sensível a outliers.
  2. A média só pode ser usada em distribuições levemente assimétricas

VARIAVEL QUALITATIVA POR VARIAVEL QUANTITATIVA

Boxplot por grupos

quantitativa = preço qualitativa = tipo de marcha

boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
        main="Gráfico 1 - boxplot do preço por tipo de marcha",
        col=c("pink","skyblue"),
        xlab="Preço do Carro",
        ylab="Tipo de marcha",
        horizontal = TRUE)

quantitativa = km/l qualitativa = tipo de combustivel

boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
        main="Gráfico 2 - boxplot do km/l por tipo de combustivel",
        col=c("red","blue"),
        xlab="Km/L",
        ylab="Tipo de combustível",
        horizontal = TRUE)

quantitativa = hp qualitativa = tipo de marcha

boxplot(HP ~ TipodeMarcha, data = CARROS,
        main="Gráfico 3 - boxplot do tipo de marcha por HP",
        col=c("red","blue"),
        xlab="HP",
        ylab="Tipo de marcha",
        horizontal = TRUE)

Estatística para relacionamento de variáveis qualitativas e quantitativas

quantitativa = preço qualitativa = tipo de marcha

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(flextable)

CARROS %>% select(Preco,TipodeMarcha) %>% 
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(Preco),1),
            Mediana=median(Preco),
            'Desvio Padrão'=round(sd(Preco),1),
            Tamanho=n()) %>%
  flextable() %>%
  add_header_lines("Tabela 1 - Estatísticas do preço do carro") %>%
  theme_vader()

quantitativa = km/l qualitativa = tipo de combustivel

CARROS %>% select(Kmporlitro,Tipodecombustivel) %>% 
  group_by(Tipodecombustivel) %>%
  summarise(Média=round(mean(Kmporlitro),1),
            Mediana=median(Kmporlitro),
            'Desvio Padrão'=round(sd(Kmporlitro),1),
            Tamanho=n()) %>%
  flextable() %>%
  add_header_lines("Tabela 2 - Estatísticas do Km/L do carro") %>%
  theme_vader()

quantitativa = hp qualitativa = tipo de marcha

CARROS %>% select(HP,TipodeMarcha) %>% 
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(HP),1),
            Mediana=median(HP),
            'Desvio Padrão'=round(sd(HP),1),
            Tamanho=n()) %>%
  flextable() %>%
  add_header_lines("Tabela 3 - Estatísticas do HP do carro") %>%
  theme_vader()

Variável de interesse (Variável resposta): HP Variaveis qualitativas - Preditores lineares: Marcha e Combustível

CARROS %>% select(HP, TipodeMarcha, Tipodecombustivel) %>%
  group_by(TipodeMarcha,Tipodecombustivel) %>%
  summarise(Média=round(mean(HP),1),
            Mediana=round(median(HP),1),
            'Desvio Padrão'=round(sd(HP),1),
            Tamanho=n()) %>%
  flextable() %>%
  add_header_lines("Tabela 4 - Estatísticas do HP por marcha e combustivel") %>%
  theme_tron_legacy()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.

Variaveis de interesse: Preço do carro e Km/L Preditor linear: Tipo de marcha

CARROS %>% select(Preco, Kmporlitro, TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média_Preço=round(mean(Preco),1),
            dp_preço=round(sd(Preco),1),
            'média_km/l'=round(mean(Kmporlitro),1),
            dp_km_l=round(sd(Kmporlitro),1)) %>%
  flextable() %>%
  add_header_lines("Tabela 5 - Estatísticas do preço e km/l por tipo de marcha") %>%
  theme_zebra()

Olhando a função filter e criando o seu próprio tema

Qual a relação do preço do carro com o tipo de marcha dado que ele é um carro a alcool?

CARROS %>% filter(Tipodecombustivel=='Alc') %>%
  select(Preco, TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(Preco),1),
            Mediana=round(median(Preco),1)) %>%
  flextable() %>%
  add_header_lines("Tabela 6 - Estatísticas do preço por tipo de marcha para carros a alcool") %>%
  bg(j = "Média", bg = "skyblue", part = "body") %>%
  bg(j = "Mediana", bg = "pink", part = "body") %>%
  bg(j = "TipodeMarcha", bg = "lightyellow", part = "body") 

Conclusão

Hoje olhamos relacionament de variáveis qualitativas com variáveis quantitativas.

O R é demais!

Referências Bibliográficas

  1. Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2022). dplyr: A Grammar of Data Manipulation. R package version 1.0.8. https://CRAN.R-project.org/package=dplyr

  2. David Gohel (2022). flextable: Functions for Tabular Reporting. R package version 0.7.0. https://CRAN.R-project.org/package=flextable