Este relatório apresenta uma análise simples de dados, visualização
interativa com DT, equações matemáticas em LaTeX, imagens
relacionadas à ciência de dados e referências bibliográficas.
Utilizaremos o conjunto de dados mtcars, já incluso no
R.
data(mtcars)
head(mtcars)
Vamos ordenar os carros pelo consumo de combustível
(mpg), filtrar os que têm 6 cilindros e criar uma nova
variável eficiencia com base no mpg.
library(dplyr)
##
## Attaching package: 'dplyr'
## The following objects are masked from 'package:stats':
##
## filter, lag
## The following objects are masked from 'package:base':
##
## intersect, setdiff, setequal, union
mtcars_mod <- mtcars %>%
mutate(model = rownames(mtcars)) %>%
arrange(desc(mpg)) %>%
filter(cyl == 6) %>%
mutate(eficiencia = ifelse(mpg > 20, "Alta", "Média"))
mtcars_mod
mutate(model = rownames(mtcars)):
adiciona o nome do carro como uma variável.arrange(desc(mpg)): ordena do maior
para o menor consumo.filter(cyl == 6): seleciona carros com
6 cilindros.mutate(eficiencia = ifelse(mpg > 20, "Alta", "Média")):
classifica a eficiência com base no mpg.library(DT)
datatable(mtcars_mod,
options = list(pageLength = 5, autoWidth = TRUE),
rownames = FALSE)
1. Fórmula de regressão linear:
\[
y = \beta_0 + \beta_1 x + \varepsilon
\]
Representa a relação entre uma variável dependente y e
uma independente x.
2. Gradiente descendente:
\[
\theta := \theta - \alpha \nabla J(\theta)
\]
Utilizado para minimizar funções de custo em aprendizado de
máquina.
3. Entropia de Shannon:
\[
H(X) = - \sum_{i=1}^n p(x_i) \log p(x_i)
\]
Mede a incerteza de uma variável aleatória em teoria da
informação.
4. Distribuição normal:
\[
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{ -\frac{(x - \mu)^2}{2\sigma^2}
}
\]
Função densidade de probabilidade da normal com média μ
e desvio padrão σ.
5. Matriz de covariância:
\[
\Sigma = E[(X - \mu)(X - \mu)^T]
\]
Representa como duas variáveis variam juntas.