knitr::opts_chunk$set(echo = TRUE)
library(ggplot2)
This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.
When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:
summary(cars$speed)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 4.0 12.0 15.0 15.4 19.0 25.0
hist(cars$speed)
Fazendo uma análise descritiva do banco de dados “cars”, através da função summary, podemos observar que para a variável “speed” , possuimos um mínimo de 4(unidades de velocidade), um máximo de 25(unidades de velocidade), uma média de 15.4(unidades de velocidade) e uma mediana de 15(unidades de velocidade), além de que as velocidades mais frequentes neste banco se situaram no intervalo entre 10 e 20 unidades de velocidade.
summary(cars$dist)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 2.00 26.00 36.00 42.98 56.00 120.00
hist(cars$dist)
Já em relação à váriavel “dist”, possuímos um mínimo de 2(unidades de distância), um máximo de 120(unidades de distância), uma média de 42.98(unidades de distância) e uma mediana de 36(unidades de distância), além de que as distâncias mais frequentes neste banco ficaram no intervalo de 20 à 40 unidades de distância.
print(cars)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
## 7 10 18
## 8 10 26
## 9 10 34
## 10 11 17
## 11 11 28
## 12 12 14
## 13 12 20
## 14 12 24
## 15 12 28
## 16 13 26
## 17 13 34
## 18 13 34
## 19 13 46
## 20 14 26
## 21 14 36
## 22 14 60
## 23 14 80
## 24 15 20
## 25 15 26
## 26 15 54
## 27 16 32
## 28 16 40
## 29 17 32
## 30 17 40
## 31 17 50
## 32 18 42
## 33 18 56
## 34 18 76
## 35 18 84
## 36 19 36
## 37 19 46
## 38 19 68
## 39 20 32
## 40 20 48
## 41 20 52
## 42 20 56
## 43 20 64
## 44 22 66
## 45 23 54
## 46 24 70
## 47 24 92
## 48 24 93
## 49 24 120
## 50 25 85
Gerando um diagrama de dispersão para as variáveis Speed e Dist, podemos verificar que há uma boa correlação entre elas. Para não tirarmos uma conclusão apenas através do gráfico gerado, pedimos o valor da correlação, sendo ele aproximadamente 0.807, ou seja, uma correlação bastante alta.
You can also embed plots, for example:
plot(cars$speed, cars$dist)
cor(cars$speed, cars$dist)
## [1] 0.8068949
Com o auxílio do pacote ggplot2, podemos visualizar melhor o gráfico que foi comentado anteriormente.
p<-ggplot(cars, aes(x=speed, y=dist))
p + geom_point(col="red") + geom_smooth(method= "lm", se= T, col="darkblue") + geom_line(col="#c51b8a") + labs(x="velocidade", y="distancia")
Utilizando o pacote dplyr e diferindo a cor para valores da variável speed menores ou igual à 15 e valores maiores que 15, além do raio do círculo diferir à medida que a distância varia, como pode-se observar no gráfico abaixo.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
cars%>%
mutate(teste=speed<=50)
## speed dist teste
## 1 4 2 TRUE
## 2 4 10 TRUE
## 3 7 4 TRUE
## 4 7 22 TRUE
## 5 8 16 TRUE
## 6 9 10 TRUE
## 7 10 18 TRUE
## 8 10 26 TRUE
## 9 10 34 TRUE
## 10 11 17 TRUE
## 11 11 28 TRUE
## 12 12 14 TRUE
## 13 12 20 TRUE
## 14 12 24 TRUE
## 15 12 28 TRUE
## 16 13 26 TRUE
## 17 13 34 TRUE
## 18 13 34 TRUE
## 19 13 46 TRUE
## 20 14 26 TRUE
## 21 14 36 TRUE
## 22 14 60 TRUE
## 23 14 80 TRUE
## 24 15 20 TRUE
## 25 15 26 TRUE
## 26 15 54 TRUE
## 27 16 32 TRUE
## 28 16 40 TRUE
## 29 17 32 TRUE
## 30 17 40 TRUE
## 31 17 50 TRUE
## 32 18 42 TRUE
## 33 18 56 TRUE
## 34 18 76 TRUE
## 35 18 84 TRUE
## 36 19 36 TRUE
## 37 19 46 TRUE
## 38 19 68 TRUE
## 39 20 32 TRUE
## 40 20 48 TRUE
## 41 20 52 TRUE
## 42 20 56 TRUE
## 43 20 64 TRUE
## 44 22 66 TRUE
## 45 23 54 TRUE
## 46 24 70 TRUE
## 47 24 92 TRUE
## 48 24 93 TRUE
## 49 24 120 TRUE
## 50 25 85 TRUE
p <- cars %>%
mutate(teste=speed<=15) %>%
ggplot(aes(x=speed, y= dist, color=teste)) + geom_point(aes(size=dist))
p
De acordo com o gráfico abaixo, podemos concluir que grande parte das observações que possuem distância menor que 35, possuem velocidade menor ou igual à 15, em contrapartida, 100% das observações que possuem distância maior ou igual à 90, possuem velocidade maior que 15.
library(dplyr)
cars%>%
mutate(teste=speed<=50)
## speed dist teste
## 1 4 2 TRUE
## 2 4 10 TRUE
## 3 7 4 TRUE
## 4 7 22 TRUE
## 5 8 16 TRUE
## 6 9 10 TRUE
## 7 10 18 TRUE
## 8 10 26 TRUE
## 9 10 34 TRUE
## 10 11 17 TRUE
## 11 11 28 TRUE
## 12 12 14 TRUE
## 13 12 20 TRUE
## 14 12 24 TRUE
## 15 12 28 TRUE
## 16 13 26 TRUE
## 17 13 34 TRUE
## 18 13 34 TRUE
## 19 13 46 TRUE
## 20 14 26 TRUE
## 21 14 36 TRUE
## 22 14 60 TRUE
## 23 14 80 TRUE
## 24 15 20 TRUE
## 25 15 26 TRUE
## 26 15 54 TRUE
## 27 16 32 TRUE
## 28 16 40 TRUE
## 29 17 32 TRUE
## 30 17 40 TRUE
## 31 17 50 TRUE
## 32 18 42 TRUE
## 33 18 56 TRUE
## 34 18 76 TRUE
## 35 18 84 TRUE
## 36 19 36 TRUE
## 37 19 46 TRUE
## 38 19 68 TRUE
## 39 20 32 TRUE
## 40 20 48 TRUE
## 41 20 52 TRUE
## 42 20 56 TRUE
## 43 20 64 TRUE
## 44 22 66 TRUE
## 45 23 54 TRUE
## 46 24 70 TRUE
## 47 24 92 TRUE
## 48 24 93 TRUE
## 49 24 120 TRUE
## 50 25 85 TRUE
p <- cars %>%
mutate(teste=speed<=15) %>%
ggplot() + geom_histogram(aes(x=dist, fill=teste), col="pink", bins = 10)
p
Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.