Introdução

Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações matemáticas, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown.

Manipulação de Dados

Carregando os Dados

library(dplyr)

## 
## Anexando pacote: 'dplyr'

## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag

## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union

library(ggplot2)

data("diamonds")

head(diamonds)

## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  0.23 Ideal     E     SI2      61.5    55   326  3.95  3.98  2.43
## 2  0.21 Premium   E     SI1      59.8    61   326  3.89  3.84  2.31
## 3  0.23 Good      E     VS1      56.9    65   327  4.05  4.07  2.31
## 4  0.29 Premium   I     VS2      62.4    58   334  4.2   4.23  2.63
## 5  0.31 Good      J     SI2      63.3    58   335  4.34  4.35  2.75
## 6  0.24 Very Good J     VVS2     62.8    57   336  3.94  3.96  2.48

Filtragem dos Dados

diamonds_filtrado <- diamonds %>%
  filter(carat > 1)

head(diamonds_filtrado)

## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  1.17 Very Good J     I1       60.2    61  2774  6.83  6.9   4.13
## 2  1.01 Premium   F     I1       61.8    60  2781  6.39  6.36  3.94
## 3  1.01 Fair      E     I1       64.5    58  2788  6.29  6.21  4.03
## 4  1.01 Premium   H     SI2      62.7    59  2788  6.31  6.22  3.93
## 5  1.05 Very Good J     SI2      63.2    56  2789  6.49  6.45  4.09
## 6  1.05 Fair      J     SI2      65.8    59  2789  6.41  6.27  4.18

Explicação:

Foram selecionados diamantes com mais de 1 quilate para analisar pedras de maior valor comercial.

Ordenação dos Dados

diamonds_ordenado <- diamonds_filtrado %>%
  arrange(desc(price))

head(diamonds_ordenado)

## # A tibble: 6 × 10
##   carat cut       color clarity depth table price     x     y     z
##   <dbl> <ord>     <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>
## 1  2.29 Premium   I     VS2      60.8    60 18823  8.5   8.47  5.16
## 2  2    Very Good G     SI1      63.5    56 18818  7.9   7.97  5.04
## 3  1.51 Ideal     G     IF       61.7    55 18806  7.37  7.41  4.56
## 4  2.07 Ideal     G     SI2      62.5    55 18804  8.2   8.13  5.11
## 5  2    Very Good H     SI1      62.8    57 18803  7.95  8     5.01
## 6  2.29 Premium   I     SI1      61.8    59 18797  8.52  8.45  5.24

Explicação:

Os diamantes foram organizados do maior para o menor preço, permitindo identificar as pedras mais valiosas do conjunto de dados.

Nova Variável

diamonds_novo <- diamonds_ordenado %>%
  mutate(price_per_carat = price/carat)

head(diamonds_novo)

## # A tibble: 6 × 11
##   carat cut    color clarity depth table price     x     y     z price_per_carat
##   <dbl> <ord>  <ord> <ord>   <dbl> <dbl> <int> <dbl> <dbl> <dbl>           <dbl>
## 1  2.29 Premi… I     VS2      60.8    60 18823  8.5   8.47  5.16           8220.
## 2  2    Very … G     SI1      63.5    56 18818  7.9   7.97  5.04           9409 
## 3  1.51 Ideal  G     IF       61.7    55 18806  7.37  7.41  4.56          12454.
## 4  2.07 Ideal  G     SI2      62.5    55 18804  8.2   8.13  5.11           9084.
## 5  2    Very … H     SI1      62.8    57 18803  7.95  8     5.01           9402.
## 6  2.29 Premi… I     SI1      61.8    59 18797  8.52  8.45  5.24           8208.

Explicação:

Foi criada uma nova variável chamada price_per_carat, representando o preço proporcional por quilate.

Tabela Interativa

DT

library(DT)

datatable(
  head(diamonds_novo,20),
  options = list(pageLength = 5)
)

Equações Matemáticas

Regressão Linear

\[ Y = \beta_0 + \beta_1X + \epsilon \]

Essa equação representa um modelo de regressão linear simples, usado para explicar uma variável resposta a partir de uma variável explicativa.

Média Aritmética

\[ \bar{x} = \frac{\sum_{i=1}^{n} x_i}{n} \]

Essa equação calcula a média de um conjunto de valores.

Desvio Padrão

\[ \sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i-\mu)^2}{N}} \]

Essa equação mede a dispersão dos dados em relação à média.

Probabilidade Condicional

\[ P(A|B)=\frac{P(A \cap B)}{P(B)} \]

Essa equação representa a probabilidade de um evento A ocorrer sabendo que o evento B já ocorreu.

Acurácia

\[ Accuracy = \frac{TP+TN}{TP+TN+FP+FN} \]

Essa equação é usada para medir o desempenho de modelos de classificação em Machine Learning.

Figuras

Figura 1

Ciência de Dados

Explicação:

A imagem representa a linguagem R, amplamente utilizada em ciência de dados, estatística e aprendizado de máquina.

Figura 2

Machine Learning

Explicação:

A imagem representa conceitos de inteligência artificial e aprendizado de máquina aplicados à ciência de dados.

Referências Bibliográficas

Referências

Wickham, H. ggplot2: Elegant Graphics for Data Analysis. Springer, 2016.
Grolemund, G.; Wickham, H. R for Data Science. O’Reilly Media, 2017.
James, G.; Witten, D.; Hastie, T.; Tibshirani, R. An Introduction to Statistical Learning. Springer, 2021.
Han, J.; Kamber, M.; Pei, J. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.
Kuhn, M.; Johnson, K. Applied Predictive Modeling. Springer, 2013.

Storytelling & R Markdown

Andresa Américo

2026-05-12

Introdução

Manipulação de Dados

Carregando os Dados

Filtragem dos Dados

Ordenação dos Dados

Nova Variável

Tabela Interativa

DT

Equações Matemáticas

Regressão Linear

Média Aritmética

Desvio Padrão

Probabilidade Condicional

Acurácia

Figuras

Figura 1

Figura 2

Referências Bibliográficas

Referências