1. Manipulação de Dados

Nesta seção, vamos carregar um conjunto de dados simples, realizar manipulações básicas e explicar cada etapa.

1.1 Carregando o conjunto de dados

Vamos utilizar o dataset mtcars, disponível no R base.

data("mtcars")
head(mtcars)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

O conjunto mtcars contém dados sobre modelos de carros, incluindo variáveis como consumo (mpg), cilindros (cyl), potência (hp) e peso (wt).


1.2 Manipulação dos dados

Aqui, filtramos carros com mais de 100 HP e criamos uma nova variável eficiencia (km/litro).

dados_manipulados <- mtcars %>%
  filter(hp > 100) %>%
  mutate(eficiencia = mpg / wt) %>%
  arrange(desc(eficiencia))

head(dados_manipulados)
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb eficiencia
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2  20.092531
## Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4   8.015267
## Volvo 142E     21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2   7.697842
## Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4   7.304348
## Ferrari Dino   19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6   7.111913
## Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1   6.656299

Explicação: - filter(hp > 100): mantém apenas carros com mais de 100 HP.
- mutate(eficiencia = mpg / wt): cria uma variável de eficiência.
- arrange(desc(eficiencia)): ordena do mais eficiente ao menos eficiente.


2. Tabela Interativa (pacote DT)

Aqui apresentamos uma tabela interativa com paginação, busca e ordenação.

datatable(
  dados_manipulados,
  options = list(pageLength = 5, autoWidth = TRUE),
  caption = "Tabela 1: Dados manipulados de carros"
)

3. Equações em LaTeX

Nesta seção apresentamos cinco equações complexas e seus significados.

3.1 Regressão Linear

\[ y = \beta_0 + \beta_1x + \epsilon \]

Representa um modelo de regressão linear simples, onde \(y\) é a variável dependente, \(x\) a independente, \(\beta_0, \beta_1\) os coeficientes e \(\epsilon\) o erro.


3.2 Média e variância

\[ Var(X) = E[(X - E[X])^2] \]

Define a variância de uma variável aleatória \(X\).


3.3 Gradiente Descendente

\[ \theta_{t+1} = \theta_t - \alpha \nabla_\theta J(\theta_t) \]

Algoritmo usado em aprendizado de máquina para minimizar uma função de custo.


3.4 Função Sigmoide

\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

Função de ativação usada em redes neurais.


3.5 Entropia (Teoria da Informação)

\[ H(X) = -\sum_{i=1}^{n} p(x_i)\log_2 p(x_i) \]

Mede a incerteza média de uma variável aleatória discreta \(X\).


4. Figuras relacionadas à Ciência de Dados

4.1 Imagem externa

Rede Neural
Rede Neural

4.2 Imagem externa

Pipeline de Ciência de Dados

5. Referências Bibliográficas

  1. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  2. Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
  3. Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.
  4. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  5. Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly Media.