Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações matemáticas, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown.
library(dplyr)
##
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
##
## filter, lag
## Os seguintes objetos são mascarados por 'package:base':
##
## intersect, setdiff, setequal, union
library(ggplot2)
data("diamonds")
head(diamonds)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43
## 2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31
## 3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31
## 4 0.29 Premium I VS2 62.4 58 334 4.2 4.23 2.63
## 5 0.31 Good J SI2 63.3 58 335 4.34 4.35 2.75
## 6 0.24 Very Good J VVS2 62.8 57 336 3.94 3.96 2.48
diamonds_filtrado <- diamonds %>%
filter(carat > 1)
head(diamonds_filtrado)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 1.17 Very Good J I1 60.2 61 2774 6.83 6.9 4.13
## 2 1.01 Premium F I1 61.8 60 2781 6.39 6.36 3.94
## 3 1.01 Fair E I1 64.5 58 2788 6.29 6.21 4.03
## 4 1.01 Premium H SI2 62.7 59 2788 6.31 6.22 3.93
## 5 1.05 Very Good J SI2 63.2 56 2789 6.49 6.45 4.09
## 6 1.05 Fair J SI2 65.8 59 2789 6.41 6.27 4.18
Explicação:
Foram selecionados diamantes com mais de 1 quilate para analisar pedras de maior valor comercial.
diamonds_ordenado <- diamonds_filtrado %>%
arrange(desc(price))
head(diamonds_ordenado)
## # A tibble: 6 × 10
## carat cut color clarity depth table price x y z
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1 2.29 Premium I VS2 60.8 60 18823 8.5 8.47 5.16
## 2 2 Very Good G SI1 63.5 56 18818 7.9 7.97 5.04
## 3 1.51 Ideal G IF 61.7 55 18806 7.37 7.41 4.56
## 4 2.07 Ideal G SI2 62.5 55 18804 8.2 8.13 5.11
## 5 2 Very Good H SI1 62.8 57 18803 7.95 8 5.01
## 6 2.29 Premium I SI1 61.8 59 18797 8.52 8.45 5.24
Explicação:
Os diamantes foram organizados do maior para o menor preço, permitindo identificar as pedras mais valiosas do conjunto de dados.
diamonds_novo <- diamonds_ordenado %>%
mutate(price_per_carat = price/carat)
head(diamonds_novo)
## # A tibble: 6 × 11
## carat cut color clarity depth table price x y z price_per_carat
## <dbl> <ord> <ord> <ord> <dbl> <dbl> <int> <dbl> <dbl> <dbl> <dbl>
## 1 2.29 Premi… I VS2 60.8 60 18823 8.5 8.47 5.16 8220.
## 2 2 Very … G SI1 63.5 56 18818 7.9 7.97 5.04 9409
## 3 1.51 Ideal G IF 61.7 55 18806 7.37 7.41 4.56 12454.
## 4 2.07 Ideal G SI2 62.5 55 18804 8.2 8.13 5.11 9084.
## 5 2 Very … H SI1 62.8 57 18803 7.95 8 5.01 9402.
## 6 2.29 Premi… I SI1 61.8 59 18797 8.52 8.45 5.24 8208.
Explicação:
Foi criada uma nova variável chamada price_per_carat,
representando o preço proporcional por quilate.
library(DT)
datatable(
head(diamonds_novo,20),
options = list(pageLength = 5)
)
\[ Y = \beta_0 + \beta_1X + \epsilon \]
Essa equação representa um modelo de regressão linear simples, usado para explicar uma variável resposta a partir de uma variável explicativa.
\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]
Essa equação calcula a média de um conjunto de valores.
\[ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}} \]
Essa equação mede a dispersão dos dados em relação à média.
\[ P(A|B)=\frac{P(A \cap B)}{P(B)} \]
Essa equação representa a probabilidade de um evento A ocorrer sabendo que o evento B já ocorreu.
\[ Accuracy = \frac{TP+TN}{TP+TN+FP+FN} \]
Essa equação é usada para medir o desempenho de modelos de classificação em Machine Learning.
Explicação:
A imagem representa a linguagem R, amplamente utilizada em ciência de dados, estatística e aprendizado de máquina.
Explicação:
A imagem representa conceitos de inteligência artificial e aprendizado de máquina aplicados à ciência de dados.
Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.
Grolemund, G.; Wickham, H. R for Data Science. O’Reilly Media, 2017.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning. Springer, 2021.
Han, J.; Kamber, M.; Pei, J. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.
Kuhn, M.; Johnson, K. Applied Predictive Modeling. Springer, 2013.