1 1. Manipulação de Dados

1.1 1.1 Carregando e transformando os dados

Usaremos o conjunto de dados mtcars, embutido no R. Vamos: - Adicionar o nome do modelo como coluna, - Criar uma variável categórica para consumo (mpg), - Criar nova variável potencia_cilindro, - Filtrar carros com hp > 100, - Ordenar pela eficiência de consumo (mpg).

data("mtcars")
df <- mtcars %>%
  rownames_to_column("Modelo") %>%
  mutate(
    categoria_mpg = case_when(
      mpg >= 25 ~ "Alto",
      mpg >= 20 & mpg < 25 ~ "Médio",
      TRUE ~ "Baixo"
    ),
    potencia_cilindro = hp / cyl
  ) %>%
  filter(hp > 100) %>%
  arrange(desc(mpg))

head(df)
##           Modelo  mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## 1   Lotus Europa 30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2
## 2 Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1
## 3     Volvo 142E 21.4   4 121.0 109 4.11 2.780 18.60  1  1    4    2
## 4      Mazda RX4 21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4
## 5  Mazda RX4 Wag 21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4
## 6   Ferrari Dino 19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6
##   categoria_mpg potencia_cilindro
## 1          Alto          28.25000
## 2         Médio          18.33333
## 3         Médio          27.25000
## 4         Médio          18.33333
## 5         Médio          18.33333
## 6         Baixo          29.16667

1.2 1.2 Explicação dos resultados

  • O dataset original possui 32 modelos de carros.
  • Após o filtro hp > 100, restam apenas os modelos mais potentes.
  • A nova variável categoria_mpg permite categorizar carros como econômicos, medianos ou gastadores.
  • A variável potencia_cilindro mostra a potência média por cilindro.

2 2. Tabela Interativa

A seguir, uma tabela interativa com busca, ordenação, filtros e botões de exportação:

datatable(
  df,
  extensions = 'Buttons',
  options = list(
    pageLength = 5,
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel'),
    searchHighlight = TRUE
  ),
  caption = 'Análise de Carros - Tabela Interativa',
  rownames = FALSE,
  filter = 'top'
)

3 3. Equações em LaTeX

Abaixo estão 5 equações relevantes em ciência de dados e estatística:

3.0.1 3.1 Regressão Linear

\[ y = \beta_0 + \beta_1 x + \epsilon \]

Representa a relação linear entre uma variável preditora \(x\) e uma resposta \(y\).

3.0.2 3.2 Função Custo (MSE)

\[ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2 \]

Cálculo do erro quadrático médio na regressão.

3.0.3 3.3 Entropia (Teoria da Informação)

\[ H(X) = - \sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]

Mede a incerteza de uma variável aleatória.

3.0.4 3.4 Gradiente Descendente

\[ \theta := \theta - \alpha \nabla J(\theta) \]

Atualização de parâmetros para minimizar a função de custo.

3.0.5 3.5 Distribuição Normal

\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 } \]

Representa a famosa “curva em sino”, usada em muitas análises estatísticas.

4 4. Figuras em Ciência de Dados

4.0.1 4.1 Relação entre Potência e Eficiência

ggplot(df, aes(x = hp, y = mpg)) +
  geom_point(aes(color = factor(cyl)), size = 4) +
  geom_smooth(method = "lm", se = FALSE) +
  labs(title = "Relação entre Potência e Eficiência Energética",
       x = "Potência (HP)",
       y = "Milhas por Galão") +
  theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'

4.0.2 4.2 Distribuição de Carros por Categoria de Consumo

ggplot(df, aes(x = factor(cyl), fill = categoria_mpg)) +
  geom_bar(position = "dodge") +
  labs(title = "Distribuição de Cilindros por Categoria de Consumo",
       x = "Número de Cilindros",
       y = "Contagem") +
  scale_fill_brewer(palette = "Set1") +
  theme_classic()

5 5. Referências Bibliográficas

  1. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.
  2. Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly Media.
  3. Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.
  4. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  5. Silver, N. (2012). The Signal and the Noise: Why So Many Predictions Fail. Penguin Press.