Primeiro passo: carregar o pacote e os dados:
library("ggplot2")
data("mpg")
Exercício 1) Execute ggplot(data=mpg). Explique o que este comando faz.
ggplot(data=mpg)
#Esse comando equivale a primeira camada do gráfico e dessemodo retorna uma "tela" em branco.
#Ou, como foi falado em aula, também é possível definir a primeira camada com o comando
G0 <- ggplot(mpg)
Exercício 2) Utilize o comando ?mpg e descreva as variáveis contidas neste banco de dados. Faça uma análise preliminar deste banco de dados usando os comando head, tail, etc (como fizemos para USArrests).
#parte 1 - comando ?mpg
?mpg
## starting httpd help server ... done
descrição do banco de dados: formece informaçoes de economia de combustível de 1990 a 2008 para 38 modelos de carros variáveis: manufacturer = nome do fabricante
model = modelo de carro
displ = deslocamento do motor, em litros (a medida do volume do cilindro varrido por todos os pistões de um motor, excluindo as câmaras de combustão.)
year = ano de fabricação
cyl = número de cilindros ou cilindradas do motor
trans = tipo de transmissão
drv = tipo de marcha, onde f= tração dianteira, r = tração traseira, 4 = 4wd
cty = “milhas na cidade” por galão = distância percorrida dentro da cidade por galão de combustível
hwy = “milhas na estrada” por galão = distância percorrida na estrada por galão de combustível
fl = tipo de combústível
class = modelo de carro
#parte 2 - Faça uma análise preliminar deste banco de dados:
dim(mpg) # = quantidade de linhas e observações do banco de dados;
## [1] 234 11
head(mpg) # = primeiras seis linhas do banco de dados;
## # A tibble: 6 × 11
## manufacturer model displ year cyl trans drv cty hwy fl class
## <chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
## 1 audi a4 1.8 1999 4 auto(l5) f 18 29 p compa…
## 2 audi a4 1.8 1999 4 manual(m5) f 21 29 p compa…
## 3 audi a4 2 2008 4 manual(m6) f 20 31 p compa…
## 4 audi a4 2 2008 4 auto(av) f 21 30 p compa…
## 5 audi a4 2.8 1999 6 auto(l5) f 16 26 p compa…
## 6 audi a4 2.8 1999 6 manual(m5) f 18 26 p compa…
tail(mpg) # = últimas seis linhas do banco de dados;
## # A tibble: 6 × 11
## manufacturer model displ year cyl trans drv cty hwy fl class
## <chr> <chr> <dbl> <int> <int> <chr> <chr> <int> <int> <chr> <chr>
## 1 volkswagen passat 1.8 1999 4 auto(l5) f 18 29 p mids…
## 2 volkswagen passat 2 2008 4 auto(s6) f 19 28 p mids…
## 3 volkswagen passat 2 2008 4 manual(m6) f 21 29 p mids…
## 4 volkswagen passat 2.8 1999 6 auto(l5) f 16 26 p mids…
## 5 volkswagen passat 2.8 1999 6 manual(m5) f 18 26 p mids…
## 6 volkswagen passat 3.6 2008 6 auto(s6) f 17 26 p mids…
summary(mpg) # = resumo estatístico das variáveis do banco de dados;
## manufacturer model displ year
## Length:234 Length:234 Min. :1.600 Min. :1999
## Class :character Class :character 1st Qu.:2.400 1st Qu.:1999
## Mode :character Mode :character Median :3.300 Median :2004
## Mean :3.472 Mean :2004
## 3rd Qu.:4.600 3rd Qu.:2008
## Max. :7.000 Max. :2008
## cyl trans drv cty
## Min. :4.000 Length:234 Length:234 Min. : 9.00
## 1st Qu.:4.000 Class :character Class :character 1st Qu.:14.00
## Median :6.000 Mode :character Mode :character Median :17.00
## Mean :5.889 Mean :16.86
## 3rd Qu.:8.000 3rd Qu.:19.00
## Max. :8.000 Max. :35.00
## hwy fl class
## Min. :12.00 Length:234 Length:234
## 1st Qu.:18.00 Class :character Class :character
## Median :24.00 Mode :character Mode :character
## Mean :23.44
## 3rd Qu.:27.00
## Max. :44.00
names(mpg) # = nomes das variáveis do banco de dados;
## [1] "manufacturer" "model" "displ" "year" "cyl"
## [6] "trans" "drv" "cty" "hwy" "fl"
## [11] "class"
Exercício 3) Faça um gráfico de dispersão entre as variáveis hwy e cyl. Mude a cor do tema. Interprete os resultados.
#Segunda camada do gráfico:
G0 <- ggplot(mpg) +
geom_point(aes(x = hwy, y = cyl),
size = 3)
G0
# Alterando os títulos do gráfico:
G1 <- G0 +
labs(title = 'Distância percorrida na estrada por galão de combustível por Cilindros em um carro',
y = 'cilindradas do motor',
x = 'Distância percorrida na estrada por galão - em milhas')
G1
#Alterando o tema do gráfico
G2 <- G1 +
theme_minimal()
G2
#INTERPRETAÇÃO: Pelo gráfico plotado, vemos que quanto maior a quantidade de cilindros em um motor (potência desse motor), mais esse carro vai consumir combústivel por distância percorrida (milhas por galão), ou seja, quanto mais alto for a cilindrada do motor menos eficiênte esse carro será considerado, pois gastará muito combustível por pouca distância percorrida.
EXERCÍCIO 4) Considerando o banco de dados utilizado no exercício anterior, escolha duas variáveis para analisar via diagrama de dispesão. Comente brevemente seus achados.
G4 <- ggplot(mpg) +
geom_point(aes(x = cty, y = cyl, color = (class)),
size = 3)
G4
# Alterando os títulos do gráfico:
G5 <- G4 +
labs(title = 'Economia de combustível de 1990 a 2008 para 38 modelos de carros',
subtitle = 'Eficiência dentro da cidade (galões/milha) pela potência do motor',
y = 'cilindradas do motor',
x = 'Distância percorrida na cidade (galões/milhas)')
G5
#Alterando o tema do gráfico
G6 <- G5 +
theme_minimal()
G6
#COMENTÁRIO: Utilizando as variáveis cty, cyl e class, pode se perceber que os modelos de carro com maior potência (cilindradas) do motor consomem maior quantidade de combustível por milha percorrida dentro de uma cidade, sendo os SUV's com maior potência e consequentemente maior consumo e os carros Compactos e Subccompactos com menos cilindradas e maior eficiência dentro da cidade.