Introdução

Vamos carregar o banco de dados. Depois disso, vamos fazer uma limpeza deste para depois começas a fazer as estatísticas.

# Carregar o banco de dados
load("C:/Users/Marcus Tulio/Desktop/MESTRADO2022_1/DISCIPLINAS/Estatistica/Mestrado_engenharia/Base_de_dados-master/Base_de_dados-master/CARROS.RData")

Transformação de Variáveis

Aqui vamos pegar as variáveis Tipodemarcha e tipodecombustíveis e transformar em variáveis qualitativas.

# Limpeza das Variáveis

CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,"Gas","Alc")
CARROS$TipodeMarcha <- ifelse(CARROS$TipodeMarcha==0,"Auto","Manual")

Boxplot

Aqui vamos ver o conceito inicial de BOXPLOT

boxplot(CARROS$Preco,
        col = "red",main="Boxplot do Preço do Carro",
        horizontal = TRUE)

Amédia e a mediana na prática

v1 <- c(1,2,3,4,5)
v1
## [1] 1 2 3 4 5
plot(v1)

# Qual é a média e a mediana de v1?
mean(v1)
## [1] 3
median(v1)
## [1] 3
v2 <- c(1,2,3,4,50000)

Outlier

50000 é um outlier

# Qual é a média e a mediana de v2?
mean(v2)  
## [1] 10002
median(v2)
## [1] 3
 Em Resumo:
 1) A média só deve ser usada em variáveis (distribuições) levemente assimétricas;
 2) Quando há a presença de outliers, a mediana não muda mas a média muda. Então na presença de outliers recomenda-se usar a mediana.

Variável Qualitativa X Variável Quantitativa

Boxplot por grupos

# Quantitativa = preço do carro

# Qualiitativa = Tipo de marcha

boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
        main="Gráfico 1 - boxplot do Preço por Tipo de Marcha",
        col=c("pink","Skyblue"),
        ylab = "Preco do Carro",
        xlab = "Tipo de Marcha")

# Quantitativa = km/l

# Qualiitativa = Tipo de Combustível

boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
        main="Gráfico 2 - boxplot do km/l por Tipo de Combustível",
        col=c("red","blue"),
        xlab = "km/l",
        ylab = "Tipo de Combustível")

# Quantitativa = HP

# Qualiitativa = Tipo de Marcha

boxplot(HP ~ TipodeMarcha, data = CARROS,
        main="Gráfico 3",
        col=c("red","blue"),
        xlab = "HP",
        ylab = "Tipo de Marcha",
        horizontal = TRUE)

Estatística para relacionamento de variáveis qualitativas e quantitativas

Quantitativa = preço do carro Qualitativa = Tipo de marcha Olhando a função add_header_lines

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
library(flextable)

CARROS %>% select(Preco,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(Preco),1),
            Mediana=median(Preco),
            Desvio_Padrão = round(sd(Preco),1),
            Tamanho=n()) %>% 
  flextable() %>%
  add_header_lines("Tabela 1 - Estatísticas do Preço do Carro") %>%
  theme_tron()

Quantitativa = km/l Qualiitativa = Tipo de Combustível

CARROS %>% select(Kmporlitro,Tipodecombustivel) %>%
  group_by(Tipodecombustivel) %>%
  summarise(Média=round(mean(Kmporlitro),1),
            Mediana=median(Kmporlitro),
            Desvio_Padrão = round(sd(Kmporlitro),1),
            Tamanho=n()) %>% 
  flextable() %>%
  add_header_lines("Tabela 2 - Estatísticas do km/l do Carro") %>%
  theme_vader()

Variável de Interesse (Variável Resposta/Quantitativa Contínua): HP Preditores Lineares (Qualitativa Nominal): Marcha e Combustível

CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
  group_by(TipodeMarcha,Tipodecombustivel) %>%
  summarise(media=mean(HP)) %>% View()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.
CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
  group_by(TipodeMarcha,Tipodecombustivel) %>%
  summarise(Média=round(mean(HP),1),
            Mediana=median(HP),
            'Desvio Padrão' = round(sd(HP),1),
            Tamanho=n()) %>%
  
  flextable() %>%
  add_header_lines("Tabela 3 - Estatísticas do HP por Marcha e Combustível") %>%
  theme_tron_legacy()
## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.

Variável de Interesse (Variável Resposta/Quantitativa Contínua): Preço e km/l Preditor Linear (Qualitativa Nominal): Tipo de Marcha

CARROS %>% select(Preco,Kmporlitro,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(média_preço=round(mean(Preco),1),
            dp_preço=round(sd(Preco),1),
            média_km_l=round(mean(Kmporlitro),1),
            dp_km_l=round(sd(Kmporlitro),1)) %>%
  flextable() %>%
  add_header_lines("Tabela 4 - Estatísticas do Preço e km/l por Tipo de Marcha") %>%
  theme_zebra()

Olhando a função Filter e criando seu próprio tema

Qual a relação de Preço do Carro com o Tipo de Marcha Dado que ele é um carro a álcool?

CARROS %>%filter(Tipodecombustivel=='Alc') %>%
  select(Preco,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(média=mean(Preco),
            mediana=median(Preco)) %>%
  flextable() %>%
  add_header_lines("Tabela 5 Estatisticas do Preço por
                   tipo de marcha para carros a alc")

Conclusão

No dia de hoje olhamos o relacionamento de variáveis qualitativas e quantitativas O R é admirável!!!

Referências Bibliográficas

  1. Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2022). dplyr: A Grammar of Data Manipulation. R package version 1.0.8. https://CRAN.R-project.org/package=dplyr
  2. David Gohel (2022). flextable: Functions for Tabular Reporting. R package version 0.7.0. https://CRAN.R-project.org/package=flextable