1. Manipulação de Dados

Nesta seção, utilizaremos o conjunto de dados mtcars, que já está incluído no R. Realizaremos manipulações simples, como ordenação, filtragem e criação de variáveis.

Carregando o conjunto de dados

data("mtcars")
df <- mtcars
head(df)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Criando uma nova variável: consumo por cilindrada

df <- df %>%
  mutate(consumo_cil = mpg / cyl)

head(df)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
##                   consumo_cil
## Mazda RX4            3.500000
## Mazda RX4 Wag        3.500000
## Datsun 710           5.700000
## Hornet 4 Drive       3.566667
## Hornet Sportabout    2.337500
## Valiant              3.016667

A nova variável consumo_cil representa a eficiência do consumo de combustível em milhas por galão dividida pelo número de cilindros.

Ordenando por eficiência

df_ordenado <- df %>%
  arrange(desc(consumo_cil))

head(df_ordenado)
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb consumo_cil
## Toyota Corolla 33.9   4  71.1  65 4.22 1.835 19.90  1  1    4    1       8.475
## Fiat 128       32.4   4  78.7  66 4.08 2.200 19.47  1  1    4    1       8.100
## Honda Civic    30.4   4  75.7  52 4.93 1.615 18.52  1  1    4    2       7.600
## Lotus Europa   30.4   4  95.1 113 3.77 1.513 16.90  1  1    5    2       7.600
## Fiat X1-9      27.3   4  79.0  66 4.08 1.935 18.90  1  1    4    1       6.825
## Porsche 914-2  26.0   4 120.3  91 4.43 2.140 16.70  0  1    5    2       6.500

Aqui, ordenamos os carros com maior eficiência por cilindro.

Filtrando carros com 6 cilindros

df_filtrado <- df %>%
  filter(cyl == 6)

df_filtrado
##                 mpg cyl  disp  hp drat    wt  qsec vs am gear carb consumo_cil
## Mazda RX4      21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4    3.500000
## Mazda RX4 Wag  21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4    3.500000
## Hornet 4 Drive 21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1    3.566667
## Valiant        18.1   6 225.0 105 2.76 3.460 20.22  1  0    3    1    3.016667
## Merc 280       19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4    3.200000
## Merc 280C      17.8   6 167.6 123 3.92 3.440 18.90  1  0    4    4    2.966667
## Ferrari Dino   19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6    3.283333

Filtramos os veículos com exatamente 6 cilindros.

2. Tabela Interativa com DT

library(DT)
datatable(df, options = list(pageLength = 5), 
          caption = 'Tabela Interativa: Conjunto de Dados mtcars')

A tabela acima permite busca, ordenação por coluna e paginação.

3. Equações em LaTeX

Aqui estão cinco equações complexas com suas respectivas explicações:

\[ E = mc^2 \] > Esta é a equação da equivalência massa-energia de Einstein.

\[ \int_{0}^{\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2} \] > Integral de Gauss, amplamente usada em estatística.

\[ \frac{d}{dx} \left( \sin x \right) = \cos x \] > Derivada do seno, fundamental em cálculo.

\[ P(A \mid B) = \frac{P(B \mid A) \cdot P(A)}{P(B)} \] > Teorema de Bayes, essencial para inferência estatística.

\[ y = \beta_0 + \beta_1 x + \varepsilon \] > Modelo de regressão linear simples.

4. Figuras Relacionadas à Ciência de Dados

Figura 1: Gráfico de dispersão com ggplot2

ggplot(df, aes(x = hp, y = mpg)) +
  geom_point(color = "blue") +
  labs(title = "Relação entre Potência e Consumo",
       x = "HP (Potência)",
       y = "MPG (Milhas por Galão)")

Figura 2: Histograma de consumo

ggplot(df, aes(x = mpg)) +
  geom_histogram(fill = "darkgreen", color = "black", bins = 10) +
  labs(title = "Distribuição do Consumo (MPG)",
       x = "MPG",
       y = "Frequência")

5. Referências Bibliográficas

  1. James, G., Witten, D., Hastie, T., & Tibshirani, R. (2013). An Introduction to Statistical Learning. Springer.

  2. Wickham, H., & Grolemund, G. (2016). R for Data Science. O’Reilly.

  3. Gelman, A., et al. (2013). Bayesian Data Analysis. CRC Press.

  4. Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.

  5. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning. Springer.