Introdução

Vamos carregar o banco de dados. Depois disso, vamos fazer uma limpeza do banco de dados para depois começar a fazer as estatísticas.

# Carregar o banco de dados
load("C:/Users/Hp/Desktop/Base_de_dados-master/CARROS.RData")

Tranformação de Variáveis

Aqui vamos pegar as variáveis tipodemarcha e tipode combustivel e transformar em variáveis qualitativas.

# Limpeza das variáveis
CARROS$Tipodecombustivel <- ifelse(CARROS$Tipodecombustivel==0,
                                   "Gas","Alc")
CARROS$TipodeMarcha      <- ifelse(CARROS$TipodeMarcha==0,
                              "Auto","Manual")

boxblot

Aqui vamos ver o conceito inicial de BOXPLOT

boxplot(CARROS$Preco,
        col = "red",
        main="Boxplot do preço do carro",
        horizontal=TRUE)

A média e a mediana na prática

quando devo usar a média?
quando devo usar a mediana?

#------------------------------------------
#------------------------------------------

v1 <- c(1,2,3,4,5)
v1

## [1] 1 2 3 4 5

plot(v1)

# qual é a média de v1?
mean(v1)

## [1] 3

# qual é a mediana de v1?
median(v1)

## [1] 3

#------------------------------------------
v2 <- c(1,2,3,4,50000)

Outlier

50000 é um outlier

# qual é a média de v2?
mean(v2)

## [1] 10002

# qual é a mediana de v2?
median(v2)

## [1] 3

Em resumo: 1. a média é sensível a outliers
2. a média só pode ser usada em distribuições levemente assimétricas

VARIÁVEL QUALITIVA POR VARIÁVEL QUANTITATIVA

boxplot por grupos

# quantitativa = preço
# qualitativa = tipo de marcha

boxplot(CARROS$Preco ~ CARROS$TipodeMarcha,
        main="Gráfico 1 - boxplot do preço por tipo de marcha",
        col=c("pink","skyblue"),
        ylab="Preço do carro",
        xlab= "Tipo de marcha")

# quantitativa = km/l
# qualitativa = tipo de comb

boxplot(CARROS$Kmporlitro ~ CARROS$Tipodecombustivel,
        main="Gráfico 2 - boxplot do km/l por tipo de combustível",
        col=c("red","blue"),
        ylab="km/l",
        xlab= "Tipo de combustível")

# quantitativa = HP
# qualitativa = tipo de marcha

boxplot(HP ~ TipodeMarcha, data = CARROS,
        main="Gráfico 3",
        col=c("red","blue"),
        xlab="HP",
        ylab= "Tipo de marcha",
        horizontal = TRUE)

Estatística para relacionamento de variáveis qualitativas e quantitativas

quantitativa = preço qualitativa = tipo de marcha

library(dplyr)

## 
## Attaching package: 'dplyr'

## The following objects are masked from 'package:stats':
## 
##     filter, lag

## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union

library(flextable)

CARROS %>% select(Preco,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(Preco),1),
            Mediana=median(Preco),
            `Desvio Padrão` = round(sd(Preco),1),
            Tamanho=n()) %>% 
  flextable() %>%
  theme_tron()

TipodeMarcha	Média	Mediana	Desvio Padrão	Tamanho
Auto	290	276	110	19
Manual	144	120	87	13

olhando a função add_header_lines

CARROS %>% select(Preco,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média=round(mean(Preco),1),
            Mediana=median(Preco),
            `Desvio Padrão` = round(sd(Preco),1),
            Tamanho=n()) %>% 
  flextable() %>%
  add_header_lines("Tabela 1 - Estatísticas do preço do carro") %>%
  theme_tron()

Tabela 1 - Estatísticas do preço do carro
Auto	290	276	110	19
Manual	144	120	87	13

quantitativa = Kmporlitro qualitativa = tipo de combustivel

CARROS %>% select(Kmporlitro,Tipodecombustivel) %>%
  group_by(Tipodecombustivel) %>%
  summarise(Média=round(mean(Kmporlitro),1),
            Mediana=median(Kmporlitro),
            `Desvio Padrão` = round(sd(Kmporlitro),1),
            Tamanho=n()) %>% 
  flextable() %>%
  add_header_lines("Tabela 2 - Estatísticas do Km/l do carro") %>%
  theme_vader()

Tabela 2 - Estatísticas do Km/l do carro
Alc	25	23	5.4	14
Gas	17	16	3.9	18

Variável de interesse (variável resposta): HP Preditores lineares: Marcha e Combustível

CARROS %>% select(HP, TipodeMarcha,Tipodecombustivel) %>%
  group_by(TipodeMarcha,Tipodecombustivel) %>%
  summarise(Média=round(mean(HP),1),
            Mediana=median(HP),
           `Desvio Padrão` = round(sd(HP),1),
           Tamanho=n()) %>% 
  flextable() %>%
  add_header_lines("Tabela 3 - Estatísticas do HP por marcha e combustível") %>%
  theme_tron_legacy()

## `summarise()` has grouped output by 'TipodeMarcha'. You can override using the
## `.groups` argument.

Tabela 3 - Estatísticas do HP por marcha e combustível
Auto	Alc	102	105	21	7
Auto	Gas	194	180	33	12
Manual	Alc	81	66	24	7
Manual	Gas	181	142	99	6

Variáveis de interesse: Preço e Km/l Preditor linear: Tipo de Marcha

CARROS %>% select(Preco,Kmporlitro,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(média_preço=round(mean(Preco),1),
            dp_preço=round(sd(Preco),1),
            `média_km/l`=round(mean(Kmporlitro),1),
            `dp_km/l`=round(sd(Kmporlitro),1)) %>%
  flextable() %>%
  add_header_lines("Tabela 4 - Estatísticas do Preço e Km/l por tipo de marcha") %>%
  theme_zebra()

Tabela 4 - Estatísticas do Preço e Km/l por tipo de marcha
Auto	290	110	17	3.8
Manual	144	87	24	6.2

Olhando a função filter e criando o seu próprio tema

Qual a relação do preço do carro com o tipo de marcha dado que ele é um carro a alc?

CARROS %>% filter(Tipodecombustivel=='Alc') %>%
  select(Preco,TipodeMarcha) %>%
  group_by(TipodeMarcha) %>%
  summarise(Média=mean(Preco),
            Mediana=median(Preco)) %>%
  flextable() %>%
  bg(j = "Média", bg = "skyblue", part = "body") %>%
  bg(j = "Mediana", bg = "pink", part = "body") %>%
  bg(j = "TipodeMarcha", bg = "lightyellow", part = "body") %>%
  add_header_lines("Tabela 5 - Estatísticas do Preço por
                   tipo de marcha para carros a alc")

Tabela 5 - Estatísticas do Preço por tipo de marcha para carros a alc
Auto	175	168
Manual	90	79

Conclusão

Hoje olhamos relacionamento de variáveis qualitativas com variáveis quantitativas.

O R é demais!

Referências Bibliográficas

Hadley Wickham, Romain François, Lionel Henry and Kirill Müller (2022). dplyr: A Grammar of Data Manipulation. R package version 1.0.8. https://CRAN.R-project.org/package=dplyr
David Gohel (2021).flextable: Functions for Tabular Reporting. R package version 0.6.10. https://CRAN.R-project.org/package=flextable

Análise de variável quantitativa por qualitativa

Uma introdução ao boxplot, dplyr e flextable

Prof. Steven Dutt Ross

02/05/2022