Nesta seção, vamos carregar um conjunto de dados simples, realizar algumas manipulações, e explicar cada passo do processo.
Utilizaremos o dataset mtcars, que já vem embutido no R.
Ele contém dados de desempenho de carros.
# Carregando o conjunto de dados
data("mtcars")
head(mtcars)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Manipulação
library(dplyr)
# Seleciono apenas os carros com mais de 20 milhas por galão (mpg) e
# Crio uma nova variável indicando se o carro tem mais de 6 cilindros
mtcars_mod <- mtcars %>% filter(mpg > 20) %>%
mutate(alto_cilindro = ifelse(cyl > 6, "Sim", "Não")) %>% arrange(desc(hp))
# Por fim, ordeno os dados por potência (hp) de forma decrescente
head(mtcars_mod)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
## Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
## Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
## Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
## Toyota Corona 21.5 4 120.1 97 3.70 2.465 20.01 1 0 3 1
## alto_cilindro
## Lotus Europa Não
## Mazda RX4 Não
## Mazda RX4 Wag Não
## Hornet 4 Drive Não
## Volvo 142E Não
## Toyota Corona Não
library(DT)
# Tabela interativa
datatable(mtcars_mod,
options = list(pageLength = 5, autoWidth = TRUE),
caption = 'Tabela 1: Carros com mais de 20 mpg')
Abaixo estão cinco equações matemáticas relevantes para a ciência de dados e acompanhadas de explicações.
\[ y = \beta_0 + \beta_1 x + \varepsilon \]
Significado: Modelo linear onde \(y\) depende de uma variável \(x\), com intercepto \(\beta_0\), coeficiente \(\beta_1\), e erro aleatório \(\varepsilon\).
\[ H(X) = -\sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]
Significado: Mede a incerteza de uma variável aleatória \(X\). Muito utilizada em algoritmos de aprendizado de máquina, como árvores de decisão.
\[ \theta := \theta - \alpha \nabla J(\theta) \]
Significado: Expressa a atualização de parâmetros \(\theta\) para minimizar uma função de custo \(J(\theta)\), com uma taxa de aprendizado \(\alpha\).
\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]
Significado: Uma função de ativação usada em redes neurais, que mapeia qualquer valor real para o intervalo (0, 1).
\[ \Sigma = \frac{1}{n - 1}(X - \bar{X})^T (X - \bar{X}) \]
Significado: Mede a relação linear entre variáveis em uma matriz de dados \(X\), sendo amplamente usada em estatística multivariada e PCA.
(Rezende Francisco 2017), (Saldanha, Barcellos, and Pedroso 2021), (Kalinowski et al. 2023), (Silva Smolski et al. 2018), (Figueiredo Filho and Silva Júnior 2009)