Nesta seção, vamos trabalhar com o conjunto de dados mtcars, que contém informações sobre características de automóveis extraídas da revista Motor Trend de 1974.
# Carregando bibliotecas necessárias
library(dplyr)
library(ggplot2)
library(DT)
# Carregando o conjunto de dados
dados <- mtcars
head(dados)## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
Descrição do conjunto de dados:
O dataset mtcars possui 32 observações e 11
variáveis:
mpg: Milhas por galão (eficiência de combustível)cyl: Número de cilindrosdisp: Deslocamento do motor (cu.in.)hp: Cavalos de potênciadrat: Relação do eixo traseirowt: Peso (1000 lbs)qsec: Tempo de 1/4 de milhavs: Tipo de motor (0 = V-shaped, 1 = straight)am: Tipo de transmissão (0 = automática, 1 =
manual)gear: Número de marchascarb: Número de carburadoresVamos ordenar os dados por eficiência de combustível (mpg) em ordem decrescente:
dados_ordenados <- dados %>%
arrange(desc(mpg))
# Mostrando os 5 carros mais eficientes
head(dados_ordenados, 5)## mpg cyl disp hp drat wt qsec vs am gear carb
## Toyota Corolla 33.9 4 71.1 65 4.22 1.835 19.90 1 1 4 1
## Fiat 128 32.4 4 78.7 66 4.08 2.200 19.47 1 1 4 1
## Honda Civic 30.4 4 75.7 52 4.93 1.615 18.52 1 1 4 2
## Lotus Europa 30.4 4 95.1 113 3.77 1.513 16.90 1 1 5 2
## Fiat X1-9 27.3 4 79.0 66 4.08 1.935 18.90 1 1 4 1
Resultado: Os carros mais eficientes são aqueles com
maior valor de mpg. O Toyota Corolla lidera com 33.9 milhas
por galão.
Vamos filtrar apenas os carros com 6 cilindros e transmissão manual:
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Ferrari Dino 19.7 6 145 175 3.62 2.770 15.50 0 1 5 6
Resultado: Encontramos 3 carros que atendem aos critérios estabelecidos (6 cilindros e transmissão manual).
Vamos criar três novas variáveis derivadas:
dados_modificados <- dados %>%
mutate(
# Razão potência/peso (hp por 1000 lbs)
potencia_peso = hp / wt,
# Categoria de eficiência
categoria_eficiencia = case_when(
mpg >= 25 ~ "Alta",
mpg >= 18 ~ "Média",
TRUE ~ "Baixa"
),
# Consumo em litros/100km (conversão aproximada)
consumo_l100km = 235.21 / mpg
)
# Visualizando as novas variáveis
head(dados_modificados %>% select(mpg, potencia_peso, categoria_eficiencia, consumo_l100km))## mpg potencia_peso categoria_eficiencia consumo_l100km
## Mazda RX4 21.0 41.98473 Média 11.20048
## Mazda RX4 Wag 21.0 38.26087 Média 11.20048
## Datsun 710 22.8 40.08621 Média 10.31623
## Hornet 4 Drive 21.4 34.21462 Média 10.99112
## Hornet Sportabout 18.7 50.87209 Média 12.57807
## Valiant 18.1 30.34682 Média 12.99503
Explicação das novas variáveis:
potencia_peso: Indica quantos cavalos de potência o carro tem por unidade de peso. Valores mais altos indicam melhor performance relativa.
categoria_eficiencia: Classifica os carros em três categorias baseadas no consumo de combustível.
consumo_l100km: Converte a eficiência de mpg para litros por 100km, uma métrica mais comum em países que usam o sistema métrico.
resumo_estatistico <- dados_modificados %>%
group_by(categoria_eficiencia) %>%
summarise(
n_carros = n(),
mpg_medio = round(mean(mpg), 2),
hp_medio = round(mean(hp), 2),
peso_medio = round(mean(wt), 2),
potencia_peso_media = round(mean(potencia_peso), 2)
)
print(resumo_estatistico)## # A tibble: 3 × 6
## categoria_eficiencia n_carros mpg_medio hp_medio peso_medio
## <chr> <int> <dbl> <dbl> <dbl>
## 1 Alta 6 30.1 75.5 1.87
## 2 Baixa 13 14.7 208. 4.01
## 3 Média 13 20.9 118. 3.04
## # ℹ 1 more variable: potencia_peso_media <dbl>
Interpretação:
ggplot(dados_modificados, aes(x = wt, y = mpg, color = categoria_eficiencia, size = hp)) +
geom_point(alpha = 0.7) +
labs(
title = "Relação entre Peso, Eficiência e Potência",
x = "Peso (1000 lbs)",
y = "Milhas por Galão (mpg)",
color = "Categoria de Eficiência",
size = "Cavalos de Potência (hp)"
) +
theme_minimal() +
theme(legend.position = "right")Análise do gráfico:
O gráfico revela uma clara relação inversa entre peso e eficiência de combustível. Carros mais pesados tendem a consumir mais combustível, enquanto veículos mais leves apresentam melhor eficiência.
datatable(
dados_modificados,
options = list(
pageLength = 10,
scrollX = TRUE,
searchHighlight = TRUE,
dom = 'Bfrtip',
buttons = c('copy', 'csv', 'excel')
),
filter = 'top',
caption = 'Tabela 1: Dados completos dos automóveis com variáveis calculadas',
rownames = TRUE,
class = 'cell-border stripe'
) %>%
formatRound(columns = c('mpg', 'disp', 'hp', 'drat', 'wt', 'qsec',
'potencia_peso', 'consumo_l100km'), digits = 2) %>%
formatStyle(
'categoria_eficiencia',
backgroundColor = styleEqual(
c('Alta', 'Média', 'Baixa'),
c('#90EE90', '#FFD700', '#FF6347')
)
)Esta tabela interativa permite:
\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p + \epsilon \]
Significado:
A equação de regressão linear múltipla modela a relação entre uma variável dependente \(Y\) e múltiplas variáveis independentes \(X_1, X_2, \ldots, X_p\). Os coeficientes \(\beta_i\) representam o impacto de cada variável preditora, \(\beta_0\) é o intercepto, e \(\epsilon\) representa o erro aleatório.
\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} = \frac{P(B|A) \cdot P(A)}{\sum_{i=1}^{n} P(B|A_i) \cdot P(A_i)} \]
Significado:
O Teorema de Bayes é fundamental em estatística bayesiana e machine learning. Ele descreve a probabilidade de um evento \(A\) ocorrer dado que o evento \(B\) já ocorreu, baseado no conhecimento prévio sobre \(A\) e na verossimilhança de \(B\) dado \(A\). É essencial para modelos de classificação probabilística.
\[ H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \]
Significado:
A entropia de Shannon mede a quantidade média de informação (ou incerteza) em uma variável aleatória \(X\). Em ciência de dados, é utilizada em algoritmos de árvores de decisão para determinar a melhor divisão dos dados, quantificando a impureza ou desordem em um conjunto de dados.
\[ \theta_{t+1} = \theta_t - \alpha \nabla J(\theta_t) = \theta_t - \alpha \frac{\partial J(\theta_t)}{\partial \theta} \]
Significado:
O gradiente descendente é um algoritmo de otimização fundamental em machine learning usado para minimizar funções de custo. A equação mostra como os parâmetros \(\theta\) são atualizados iterativamente na direção oposta ao gradiente \(\nabla J(\theta)\), com taxa de aprendizado \(\alpha\), até convergir para um mínimo da função de custo \(J(\theta)\).
\[ \Sigma = \mathbb{E}[(X - \mu)(X - \mu)^T] = \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{bmatrix} \]
Significado:
A matriz de covariância \(\Sigma\) captura as relações lineares entre todas as variáveis em um conjunto de dados multivariado. Cada elemento \(\sigma_{ij}\) representa a covariância entre as variáveis \(i\) e \(j\). É fundamental em análise de componentes principais (PCA), análise discriminante e muitos outros métodos de redução de dimensionalidade.
Figura 1: Ciclo de vida completo de um projeto de Ciência de Dados, incluindo as etapas de coleta de dados, limpeza, exploração, modelagem, validação e comunicação dos resultados.
Figura 2: Taxonomia dos principais algoritmos de Machine Learning, organizados por tipo de aprendizado (supervisionado, não supervisionado e por reforço).
Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC. Disponível em: https://bookdown.org/yihui/rmarkdown/
R Core Team (2024). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Disponível em: https://www.r-project.org/
Wickham, H. (2019). Advanced R (2nd ed.). CRC Press. Disponível em: https://adv-r.hadley.nz/
R Documentation. cars dataset. Disponível em: https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/cars.html
Estas referências estão diretamente relacionadas ao conteúdo apresentado neste relatório:
cars utilizado na análiseEste relatório demonstrou o uso completo das funcionalidades do R Markdown, incluindo:
✓ Manipulação e análise de dados
✓ Criação de tabelas interativas com DT
✓ Apresentação de equações matemáticas complexas
✓ Inclusão de figuras relevantes
✓ Citação de referências bibliográficas
Todos os componentes foram organizados em abas.
Data de geração: 03 de novembro de 2025