Introdução

Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações em LaTeX, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown e a base de dados “cars”.

Manipulação de Dados

Carregamento da Base

# Visualizando os nomes das variáveis
names(cars)
## [1] "speed" "dist"
# Resumo estatístico
summary(cars)
##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00
# Primeiras linhas
head(cars)
##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

Explicação

A base de dados cars possui duas variáveis:

  • speed: velocidade do carro
  • dist: distância necessária para parar

A função summary() apresenta estatísticas importantes como:

  • valor mínimo
  • valor máximo
  • média
  • mediana
  • quartis

Já a função head() exibe as primeiras observações do conjunto de dados.


Ordenação dos Dados

# Ordenando pela maior velocidade
cars_ordenado <- cars[order(-cars$speed), ]

head(cars_ordenado)
##    speed dist
## 50    25   85
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 45    23   54

Explicação

A função order() foi utilizada para ordenar os dados pela variável speed em ordem decrescente.

Assim, os carros com maiores velocidades aparecem primeiro.


Filtragem dos Dados

# Selecionando carros com velocidade maior que 20
cars_filtrado <- subset(cars, speed > 20)

cars_filtrado
##    speed dist
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

Explicação

A função subset() foi utilizada para selecionar apenas os carros cuja velocidade é maior que 20.

Isso permite analisar somente observações específicas.


Criação de Nova Variável

# Criando nova variável
cars$relacao <- cars$dist / cars$speed

head(cars)
##   speed dist   relacao
## 1     4    2 0.5000000
## 2     4   10 2.5000000
## 3     7    4 0.5714286
## 4     7   22 3.1428571
## 5     8   16 2.0000000
## 6     9   10 1.1111111

Explicação

Foi criada uma nova variável chamada relacao, que representa a relação entre distância e velocidade.

Essa variável pode auxiliar na análise da eficiência de frenagem.


Gráfico da Base

Explicação

O gráfico mostra a relação entre velocidade e distância de frenagem.

Observa-se que, em geral, quanto maior a velocidade, maior a distância necessária para parar o veículo.

Tabela Interativa com DT

Tabela Interativa

library(DT)
## Warning: pacote 'DT' foi compilado no R versão 4.4.3
datatable(
  cars,
  options = list(
    pageLength = 5,
    searching = TRUE
  ),
  caption = "Tabela Interativa da Base Cars"
)

Explicação

O pacote DT permite criar tabelas interativas com:

  • paginação
  • busca
  • ordenação
  • navegação dinâmica

Isso facilita bastante a análise exploratória dos dados.

Equações em LaTeX

Equação 1 — Regressão Linear

\[ y = \beta_0 + \beta_1 x + \epsilon \]

Significado

Representa um modelo de regressão linear simples.

  • \(y\): variável resposta
  • \(x\): variável explicativa
  • \(\beta_0\): intercepto
  • \(\beta_1\): coeficiente angular
  • \(\epsilon\): erro aleatório

Equação 2 — Distribuição Normal

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Significado

Representa a distribuição normal.

  • \(\mu\): média
  • \(\sigma\): desvio padrão

Equação 3 — Gradiente Descendente

\[ \theta = \theta - \alpha \frac{\partial J(\theta)}{\partial \theta} \]

Significado

Equação utilizada em Machine Learning para minimizar funções de custo.

  • \(\alpha\): taxa de aprendizado
  • \(J(\theta)\): função custo

Equação 4 — Teorema de Bayes

\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Significado

Utilizado para atualizar probabilidades com base em novas evidências.


Equação 5 — Correlação de Pearson

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]

Significado

Mede o grau de correlação linear entre duas variáveis.

  • \(r\): coeficiente de correlação
  • valores próximos de 1 indicam forte correlação positiva

Figuras sobre Ciência de Dados

Figura 1 — Linguagem R

Explicação

A linguagem R é amplamente utilizada em estatística, análise de dados e ciência de dados.


Figura 2 — Ciência de Dados

Explicação

A figura representa o processo de ciência de dados envolvendo análise, modelagem e visualização.

Referências Bibliográficas

Referências

  1. WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. Sebastopol: O’Reilly Media, 2017.

  2. JAMES, Gareth et al. An Introduction to Statistical Learning. New York: Springer, 2021.

  3. HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical Learning. New York: Springer, 2009.

  4. KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling. New York: Springer, 2013.

  5. MOLNAR, Christoph. Interpretable Machine Learning. 2. ed. 2022.