Este relatório apresenta exemplos de manipulação de dados, tabelas interativas, equações em LaTeX, figuras relacionadas à ciência de dados e referências bibliográficas utilizando R Markdown e a base de dados “cars”.
# Visualizando os nomes das variáveis
names(cars)
## [1] "speed" "dist"
# Resumo estatístico
summary(cars)
## speed dist
## Min. : 4.0 Min. : 2.00
## 1st Qu.:12.0 1st Qu.: 26.00
## Median :15.0 Median : 36.00
## Mean :15.4 Mean : 42.98
## 3rd Qu.:19.0 3rd Qu.: 56.00
## Max. :25.0 Max. :120.00
# Primeiras linhas
head(cars)
## speed dist
## 1 4 2
## 2 4 10
## 3 7 4
## 4 7 22
## 5 8 16
## 6 9 10
A base de dados cars possui duas variáveis:
speed: velocidade do carrodist: distância necessária para pararA função summary() apresenta estatísticas importantes
como:
Já a função head() exibe as primeiras observações do
conjunto de dados.
# Ordenando pela maior velocidade
cars_ordenado <- cars[order(-cars$speed), ]
head(cars_ordenado)
## speed dist
## 50 25 85
## 46 24 70
## 47 24 92
## 48 24 93
## 49 24 120
## 45 23 54
A função order() foi utilizada para ordenar os dados
pela variável speed em ordem decrescente.
Assim, os carros com maiores velocidades aparecem primeiro.
# Selecionando carros com velocidade maior que 20
cars_filtrado <- subset(cars, speed > 20)
cars_filtrado
## speed dist
## 44 22 66
## 45 23 54
## 46 24 70
## 47 24 92
## 48 24 93
## 49 24 120
## 50 25 85
A função subset() foi utilizada para selecionar apenas
os carros cuja velocidade é maior que 20.
Isso permite analisar somente observações específicas.
# Criando nova variável
cars$relacao <- cars$dist / cars$speed
head(cars)
## speed dist relacao
## 1 4 2 0.5000000
## 2 4 10 2.5000000
## 3 7 4 0.5714286
## 4 7 22 3.1428571
## 5 8 16 2.0000000
## 6 9 10 1.1111111
Foi criada uma nova variável chamada relacao, que
representa a relação entre distância e velocidade.
Essa variável pode auxiliar na análise da eficiência de frenagem.
O gráfico mostra a relação entre velocidade e distância de frenagem.
Observa-se que, em geral, quanto maior a velocidade, maior a distância necessária para parar o veículo.
library(DT)
## Warning: pacote 'DT' foi compilado no R versão 4.4.3
datatable(
cars,
options = list(
pageLength = 5,
searching = TRUE
),
caption = "Tabela Interativa da Base Cars"
)
O pacote DT permite criar tabelas interativas com:
Isso facilita bastante a análise exploratória dos dados.
\[ y = \beta_0 + \beta_1 x + \epsilon \]
Representa um modelo de regressão linear simples.
\[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} \]
Representa a distribuição normal.
\[ \theta = \theta - \alpha \frac{\partial J(\theta)}{\partial \theta} \]
Equação utilizada em Machine Learning para minimizar funções de custo.
\[ P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]
Utilizado para atualizar probabilidades com base em novas evidências.
\[ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} \]
Mede o grau de correlação linear entre duas variáveis.
A linguagem R é amplamente utilizada em estatística, análise de dados e ciência de dados.
A figura representa o processo de ciência de dados envolvendo análise, modelagem e visualização.
WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. Sebastopol: O’Reilly Media, 2017.
JAMES, Gareth et al. An Introduction to Statistical Learning. New York: Springer, 2021.
HASTIE, Trevor; TIBSHIRANI, Robert; FRIEDMAN, Jerome. The Elements of Statistical Learning. New York: Springer, 2009.
KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling. New York: Springer, 2013.
MOLNAR, Christoph. Interpretable Machine Learning. 2. ed. 2022.