knitr::opts_chunk$set(echo = TRUE)
library(ggplot2)

R Markdown

This is an R Markdown document. Markdown is a simple formatting syntax for authoring HTML, PDF, and MS Word documents. For more details on using R Markdown see http://rmarkdown.rstudio.com.

When you click the Knit button a document will be generated that includes both content as well as the output of any embedded R code chunks within the document. You can embed an R code chunk like this:

summary(cars$speed)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##     4.0    12.0    15.0    15.4    19.0    25.0
hist(cars$speed)

Fazendo uma análise descritiva do banco de dados “cars”, através da função summary, podemos observar que para a variável “speed” , possuimos um mínimo de 4(unidades de velocidade), um máximo de 25(unidades de velocidade), uma média de 15.4(unidades de velocidade) e uma mediana de 15(unidades de velocidade), além de que as velocidades mais frequentes neste banco se situaram no intervalo entre 10 e 20 unidades de velocidade.

summary(cars$dist)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##    2.00   26.00   36.00   42.98   56.00  120.00
hist(cars$dist)

Já em relação à váriavel “dist”, possuímos um mínimo de 2(unidades de distância), um máximo de 120(unidades de distância), uma média de 42.98(unidades de distância) e uma mediana de 36(unidades de distância), além de que as distâncias mais frequentes neste banco ficaram no intervalo de 20 à 40 unidades de distância.

print(cars)
##    speed dist
## 1      4    2
## 2      4   10
## 3      7    4
## 4      7   22
## 5      8   16
## 6      9   10
## 7     10   18
## 8     10   26
## 9     10   34
## 10    11   17
## 11    11   28
## 12    12   14
## 13    12   20
## 14    12   24
## 15    12   28
## 16    13   26
## 17    13   34
## 18    13   34
## 19    13   46
## 20    14   26
## 21    14   36
## 22    14   60
## 23    14   80
## 24    15   20
## 25    15   26
## 26    15   54
## 27    16   32
## 28    16   40
## 29    17   32
## 30    17   40
## 31    17   50
## 32    18   42
## 33    18   56
## 34    18   76
## 35    18   84
## 36    19   36
## 37    19   46
## 38    19   68
## 39    20   32
## 40    20   48
## 41    20   52
## 42    20   56
## 43    20   64
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

Including Plots

Gerando um diagrama de dispersão para as variáveis Speed e Dist, podemos verificar que há uma boa correlação entre elas. Para não tirarmos uma conclusão apenas através do gráfico gerado, pedimos o valor da correlação, sendo ele aproximadamente 0.807, ou seja, uma correlação bastante alta.

You can also embed plots, for example:

plot(cars$speed, cars$dist)

cor(cars$speed, cars$dist)
## [1] 0.8068949

Com o auxílio do pacote ggplot2, podemos visualizar melhor o gráfico que foi comentado anteriormente.

p<-ggplot(cars, aes(x=speed, y=dist))

p + geom_point(col="red") + geom_smooth(method= "lm", se= T, col="darkblue") + geom_line(col="#c51b8a") + labs(x="velocidade", y="distancia")

Utilizando o pacote dplyr e diferindo a cor para valores da variável speed menores ou igual à 15 e valores maiores que 15, além do raio do círculo diferir à medida que a distância varia, como pode-se observar no gráfico abaixo.

library(dplyr)
## 
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
## 
##     filter, lag
## The following objects are masked from 'package:base':
## 
##     intersect, setdiff, setequal, union
cars%>%
  mutate(teste=speed<=50)
##    speed dist teste
## 1      4    2  TRUE
## 2      4   10  TRUE
## 3      7    4  TRUE
## 4      7   22  TRUE
## 5      8   16  TRUE
## 6      9   10  TRUE
## 7     10   18  TRUE
## 8     10   26  TRUE
## 9     10   34  TRUE
## 10    11   17  TRUE
## 11    11   28  TRUE
## 12    12   14  TRUE
## 13    12   20  TRUE
## 14    12   24  TRUE
## 15    12   28  TRUE
## 16    13   26  TRUE
## 17    13   34  TRUE
## 18    13   34  TRUE
## 19    13   46  TRUE
## 20    14   26  TRUE
## 21    14   36  TRUE
## 22    14   60  TRUE
## 23    14   80  TRUE
## 24    15   20  TRUE
## 25    15   26  TRUE
## 26    15   54  TRUE
## 27    16   32  TRUE
## 28    16   40  TRUE
## 29    17   32  TRUE
## 30    17   40  TRUE
## 31    17   50  TRUE
## 32    18   42  TRUE
## 33    18   56  TRUE
## 34    18   76  TRUE
## 35    18   84  TRUE
## 36    19   36  TRUE
## 37    19   46  TRUE
## 38    19   68  TRUE
## 39    20   32  TRUE
## 40    20   48  TRUE
## 41    20   52  TRUE
## 42    20   56  TRUE
## 43    20   64  TRUE
## 44    22   66  TRUE
## 45    23   54  TRUE
## 46    24   70  TRUE
## 47    24   92  TRUE
## 48    24   93  TRUE
## 49    24  120  TRUE
## 50    25   85  TRUE
p <- cars %>%
  mutate(teste=speed<=15) %>% 
  ggplot(aes(x=speed, y= dist, color=teste)) + geom_point(aes(size=dist))
p

De acordo com o gráfico abaixo, podemos concluir que grande parte das observações que possuem distância menor que 35, possuem velocidade menor ou igual à 15, em contrapartida, 100% das observações que possuem distância maior ou igual à 90, possuem velocidade maior que 15.

library(dplyr)
cars%>%
  mutate(teste=speed<=50)
##    speed dist teste
## 1      4    2  TRUE
## 2      4   10  TRUE
## 3      7    4  TRUE
## 4      7   22  TRUE
## 5      8   16  TRUE
## 6      9   10  TRUE
## 7     10   18  TRUE
## 8     10   26  TRUE
## 9     10   34  TRUE
## 10    11   17  TRUE
## 11    11   28  TRUE
## 12    12   14  TRUE
## 13    12   20  TRUE
## 14    12   24  TRUE
## 15    12   28  TRUE
## 16    13   26  TRUE
## 17    13   34  TRUE
## 18    13   34  TRUE
## 19    13   46  TRUE
## 20    14   26  TRUE
## 21    14   36  TRUE
## 22    14   60  TRUE
## 23    14   80  TRUE
## 24    15   20  TRUE
## 25    15   26  TRUE
## 26    15   54  TRUE
## 27    16   32  TRUE
## 28    16   40  TRUE
## 29    17   32  TRUE
## 30    17   40  TRUE
## 31    17   50  TRUE
## 32    18   42  TRUE
## 33    18   56  TRUE
## 34    18   76  TRUE
## 35    18   84  TRUE
## 36    19   36  TRUE
## 37    19   46  TRUE
## 38    19   68  TRUE
## 39    20   32  TRUE
## 40    20   48  TRUE
## 41    20   52  TRUE
## 42    20   56  TRUE
## 43    20   64  TRUE
## 44    22   66  TRUE
## 45    23   54  TRUE
## 46    24   70  TRUE
## 47    24   92  TRUE
## 48    24   93  TRUE
## 49    24  120  TRUE
## 50    25   85  TRUE
p <- cars %>%
  mutate(teste=speed<=15) %>% 
  ggplot() + geom_histogram(aes(x=dist, fill=teste), col="pink", bins = 10)
p

Note that the echo = FALSE parameter was added to the code chunk to prevent printing of the R code that generated the plot.