Usaremos o conjunto de dados mtcars, embutido no R.
Vamos: - Adicionar o nome do modelo como coluna, - Criar uma variável
categórica para consumo (mpg), - Criar nova variável
potencia_cilindro, - Filtrar carros com
hp > 100, - Ordenar pela eficiência de consumo
(mpg).
data("mtcars")
df <- mtcars %>%
rownames_to_column("Modelo") %>%
mutate(
categoria_mpg = case_when(
mpg >= 25 ~ "Alto",
mpg >= 20 & mpg < 25 ~ "Médio",
TRUE ~ "Baixo"
),
potencia_cilindro = hp / cyl
) %>%
filter(hp > 100) %>%
arrange(desc(mpg))
head(df)
## Modelo mpg cyl disp hp drat wt qsec vs am gear carb
## 1 Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
## 2 Hornet 4 Drive 21.4 6 258.0 110 3.08 3.215 19.44 1 0 3 1
## 3 Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2
## 4 Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4
## 5 Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4
## 6 Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6
## categoria_mpg potencia_cilindro
## 1 Alto 28.25000
## 2 Médio 18.33333
## 3 Médio 27.25000
## 4 Médio 18.33333
## 5 Médio 18.33333
## 6 Baixo 29.16667
hp > 100, restam apenas os modelos
mais potentes.categoria_mpg permite categorizar
carros como econômicos, medianos ou gastadores.potencia_cilindro mostra a potência média
por cilindro.A seguir, uma tabela interativa com busca, ordenação, filtros e botões de exportação:
datatable(
df,
extensions = 'Buttons',
options = list(
pageLength = 5,
dom = 'Bfrtip',
buttons = c('copy', 'csv', 'excel'),
searchHighlight = TRUE
),
caption = 'Análise de Carros - Tabela Interativa',
rownames = FALSE,
filter = 'top'
)
Abaixo estão 5 equações relevantes em ciência de dados e estatística:
\[ y = \beta_0 + \beta_1 x + \epsilon \]
Representa a relação linear entre uma variável preditora \(x\) e uma resposta \(y\).
\[ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m}(h_\theta(x^{(i)}) - y^{(i)})^2 \]
Cálculo do erro quadrático médio na regressão.
\[ H(X) = - \sum_{i=1}^{n} p(x_i) \log_2 p(x_i) \]
Mede a incerteza de uma variável aleatória.
\[ \theta := \theta - \alpha \nabla J(\theta) \]
Atualização de parâmetros para minimizar a função de custo.
\[ f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{ -\frac{1}{2} \left( \frac{x - \mu}{\sigma} \right)^2 } \]
Representa a famosa “curva em sino”, usada em muitas análises estatísticas.
ggplot(df, aes(x = hp, y = mpg)) +
geom_point(aes(color = factor(cyl)), size = 4) +
geom_smooth(method = "lm", se = FALSE) +
labs(title = "Relação entre Potência e Eficiência Energética",
x = "Potência (HP)",
y = "Milhas por Galão") +
theme_minimal()
## `geom_smooth()` using formula = 'y ~ x'
ggplot(df, aes(x = factor(cyl), fill = categoria_mpg)) +
geom_bar(position = "dodge") +
labs(title = "Distribuição de Cilindros por Categoria de Consumo",
x = "Número de Cilindros",
y = "Contagem") +
scale_fill_brewer(palette = "Set1") +
theme_classic()