Introdução

Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações em LaTeX, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown e a base de dados “cars”.

Manipulação de Dados

Carregamento da Base

# Visualizando os nomes das variáveis
names(cars)

## [1] "speed" "dist"

# Resumo estatístico
summary(cars)

##      speed           dist       
##  Min.   : 4.0   Min.   :  2.00  
##  1st Qu.:12.0   1st Qu.: 26.00  
##  Median :15.0   Median : 36.00  
##  Mean   :15.4   Mean   : 42.98  
##  3rd Qu.:19.0   3rd Qu.: 56.00  
##  Max.   :25.0   Max.   :120.00

# Primeiras linhas
head(cars)

##   speed dist
## 1     4    2
## 2     4   10
## 3     7    4
## 4     7   22
## 5     8   16
## 6     9   10

Explicação

A base de dados cars possui duas variáveis:

speed: velocidade do carro
dist: distância necessária para parar

A função summary() apresenta estatísticas importantes como:

valor mínimo
valor máximo
média
mediana
quartis

Já a função head() exibe as primeiras observações do conjunto de dados.

Ordenação dos Dados

# Ordenando pela maior velocidade
cars_ordenado <- cars[order(-cars$speed), ]

head(cars_ordenado)

##    speed dist
## 50    25   85
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 45    23   54

Explicação

A função order() foi utilizada para ordenar os dados pela variável speed em ordem decrescente.

Assim, os carros com maiores velocidades aparecem primeiro.

Filtragem dos Dados

# Selecionando carros com velocidade maior que 20
cars_filtrado <- subset(cars, speed > 20)

cars_filtrado

##    speed dist
## 44    22   66
## 45    23   54
## 46    24   70
## 47    24   92
## 48    24   93
## 49    24  120
## 50    25   85

Explicação

A função subset() foi utilizada para selecionar apenas os carros cuja velocidade é maior que 20.

Isso permite analisar somente observações específicas.

Criação de Nova Variável

# Criando nova variável
cars$relacao <- cars$dist / cars$speed

head(cars)

##   speed dist   relacao
## 1     4    2 0.5000000
## 2     4   10 2.5000000
## 3     7    4 0.5714286
## 4     7   22 3.1428571
## 5     8   16 2.0000000
## 6     9   10 1.1111111

Explicação

Foi criada uma nova variável chamada relacao, que representa a relação entre distância e velocidade.

Essa variável pode auxiliar na análise da eficiência de frenagem.

Gráfico da Base

Explicação

O gráfico mostra a relação entre velocidade e distância de frenagem.

Observa-se que, em geral, quanto maior a velocidade, maior a distância necessária para parar o veículo.

Tabela Interativa com DT

Tabela Interativa

library(DT)

## Warning: pacote 'DT' foi compilado no R versão 4.4.3

datatable(
  cars,
  options = list(
    pageLength = 5,
    searching = TRUE
  ),
  caption = "Tabela Interativa da Base Cars"
)

Explicação

O pacote DT permite criar tabelas interativas com:

paginação
busca
ordenação
navegação dinâmica

Isso facilita bastante a análise exploratória dos dados.

Equações em LaTeX

Equação 1 — Regressão Linear

\[ y = \beta_0 + \beta_1 x + \epsilon \]

Significado

Representa um modelo de regressão linear simples.

\(y\): variável resposta
\(x\): variável explicativa
\(\beta_0\): intercepto
\(\beta_1\): coeficiente angular
\(\epsilon\): erro aleatório

Equação 2 — Distribuição Normal

\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]

Significado

Representa a distribuição normal.

\(\mu\): média
\(\sigma\): desvio padrão

Equação 3 — Gradiente Descendente

\[ \theta = \theta - \alpha \frac{\partial J(\theta)}{\partial \theta} \]

Significado

Equação utilizada em Machine Learning para minimizar funções de custo.

\(\alpha\): taxa de aprendizado
\(J(\theta)\): função custo

Equação 4 — Teorema de Bayes

\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]

Significado

Utilizado para atualizar probabilidades com base em novas evidências.

Equação 5 — Correlação de Pearson

\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]

Significado

Mede o grau de correlação linear entre duas variáveis.

\(r\): coeficiente de correlação
valores próximos de 1 indicam forte correlação positiva

Figuras sobre Ciência de Dados

Figura 1 — Linguagem R

Explicação

A linguagem R é amplamente utilizada em estatística, análise de dados e ciência de dados.

Figura 2 — Ciência de Dados

Explicação

A figura representa o processo de ciência de dados envolvendo análise, modelagem e visualização.

Referências Bibliográficas

Referências

WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. Sebastopol: O’Reilly Media, 2017.
JAMES, Gareth et al. An Introduction to Statistical Learning. New York: Springer, 2021.
HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical Learning. New York: Springer, 2009.
KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling. New York: Springer, 2013.
MOLNAR, Christoph. Interpretable Machine Learning. 2. ed. 2022.

Atv PPGIA

Pedro Augusto

2026-05-12

Introdução

Manipulação de Dados

Carregamento da Base

Explicação

Ordenação dos Dados

Explicação

Filtragem dos Dados

Explicação

Criação de Nova Variável

Explicação

Gráfico da Base

Explicação

Tabela Interativa com DT

Tabela Interativa

Explicação

Equações em LaTeX

Equação 1 — Regressão Linear

Significado

Equação 2 — Distribuição Normal

Significado

Equação 3 — Gradiente Descendente

Significado

Equação 4 — Teorema de Bayes

Significado

Equação 5 — Correlação de Pearson

Significado

Figuras sobre Ciência de Dados

Figura 1 — Linguagem R

Explicação

Figura 2 — Ciência de Dados

Explicação

Referências Bibliográficas

Referências