Introdução

Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações matemáticas, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown.

Manipulação de Dados

Carregando os Dados

library(dplyr)
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
library(ggplot2)

data("diamonds")

head(diamonds)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Filtragem dos Dados

diamonds_filtrado <- diamonds %>%
  filter(carat > 1)

head(diamonds_filtrado)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  1.17 Very Good J     I1       60.2    61  2774  6.83  6.9   4.13
## 2  1.01 Premium   F     I1       61.8    60  2781  6.39  6.36  3.94
## 3  1.01 Fair      E     I1       64.5    58  2788  6.29  6.21  4.03
## 4  1.01 Premium   H     SI2      62.7    59  2788  6.31  6.22  3.93
## 5  1.05 Very Good J     SI2      63.2    56  2789  6.49  6.45  4.09
## 6  1.05 Fair      J     SI2      65.8    59  2789  6.41  6.27  4.18

Explicação:

Foram selecionados diamantes com mais de 1 quilate para analisar pedras de maior valor comercial.

Ordenação dos Dados

diamonds_ordenado <- diamonds_filtrado %>%
  arrange(desc(price))

head(diamonds_ordenado)
## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  2.29 Premium   I     VS2      60.8    60 18823  8.5   8.47  5.16
## 2  2    Very Good G     SI1      63.5    56 18818  7.9   7.97  5.04
## 3  1.51 Ideal     G     IF       61.7    55 18806  7.37  7.41  4.56
## 4  2.07 Ideal     G     SI2      62.5    55 18804  8.2   8.13  5.11
## 5  2    Very Good H     SI1      62.8    57 18803  7.95  8     5.01
## 6  2.29 Premium   I     SI1      61.8    59 18797  8.52  8.45  5.24

Explicação:

Os diamantes foram organizados do maior para o menor preço, permitindo identificar as pedras mais valiosas do conjunto de dados.

Nova Variável

diamonds_novo <- diamonds_ordenado %>%
  mutate(price_per_carat = price/carat)

head(diamonds_novo)
## # A tibble: 6 × 11
##   carat cut    color clarity depth table price     x     y     z price_per_carat
##   <dbl> <ord>  <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>           <dbl>
## 1  2.29 Premi… I     VS2      60.8    60 18823  8.5   8.47  5.16           8220.
## 2  2    Very … G     SI1      63.5    56 18818  7.9   7.97  5.04           9409 
## 3  1.51 Ideal  G     IF       61.7    55 18806  7.37  7.41  4.56          12454.
## 4  2.07 Ideal  G     SI2      62.5    55 18804  8.2   8.13  5.11           9084.
## 5  2    Very … H     SI1      62.8    57 18803  7.95  8     5.01           9402.
## 6  2.29 Premi… I     SI1      61.8    59 18797  8.52  8.45  5.24           8208.

Explicação:

Foi criada uma nova variável chamada price_per_carat, representando o preço proporcional por quilate.

Tabela Interativa

DT

library(DT)

datatable(
  head(diamonds_novo,20),
  options = list(pageLength = 5)
)

Equações Matemáticas

Regressão Linear

\[ Y = \beta_0 + \beta_1X + \epsilon \]

Essa equação representa um modelo de regressão linear simples, usado para explicar uma variável resposta a partir de uma variável explicativa.

Média Aritmética

\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]

Essa equação calcula a média de um conjunto de valores.

Desvio Padrão

\[ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}} \]

Essa equação mede a dispersão dos dados em relação à média.

Probabilidade Condicional

\[ P(A|B)=\frac{P(A \cap B)}{P(B)} \]

Essa equação representa a probabilidade de um evento A ocorrer sabendo que o evento B já ocorreu.

Acurácia

\[ Accuracy = \frac{TP+TN}{TP+TN+FP+FN} \]

Essa equação é usada para medir o desempenho de modelos de classificação em Machine Learning.

Figuras

Figura 1

Ciência de Dados
Ciência de Dados

Explicação:

A imagem representa a linguagem R, amplamente utilizada em ciência de dados, estatística e aprendizado de máquina.

Figura 2

Machine Learning
Machine Learning

Explicação:

A imagem representa conceitos de inteligência artificial e aprendizado de máquina aplicados à ciência de dados.

Referências Bibliográficas

Referências

  • Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.

  • Grolemund, G.; Wickham, H. R for Data Science. O’Reilly Media, 2017.

  • James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning. Springer, 2021.

  • Han, J.; Kamber, M.; Pei, J. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.

  • Kuhn, M.; Johnson, K. Applied Predictive Modeling. Springer, 2013.