1. Análise e Manipulação de Dados

Carregamento dos Dados

Nesta seção, vamos trabalhar com o conjunto de dados mtcars, que contém informações sobre características de automóveis extraídas da revista Motor Trend de 1974.

# Carregando bibliotecas necessárias
library(dplyr)
library(ggplot2)
library(DT)

# Carregando o conjunto de dados
dados <- mtcars
head(dados)
##                    mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
## Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
## Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
## Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1

Descrição do conjunto de dados:

O dataset mtcars possui 32 observações e 11 variáveis:

  • mpg: Milhas por galão (eficiência de combustível)
  • cyl: Número de cilindros
  • disp: Deslocamento do motor (cu.in.)
  • hp: Cavalos de potência
  • drat: Relação do eixo traseiro
  • wt: Peso (1000 lbs)
  • qsec: Tempo de 1/4 de milha
  • vs: Tipo de motor (0 = V-shaped, 1 = straight)
  • am: Tipo de transmissão (0 = automática, 1 = manual)
  • gear: Número de marchas
  • carb: Número de carburadores

Manipulação dos Dados

Ordenação dos Dados

Vamos ordenar os dados por eficiência de combustível (mpg) em ordem decrescente:

dados_ordenados <- dados %>%
  arrange(desc(mpg))

# Mostrando os 5 carros mais eficientes
head(dados_ordenados, 5)
##                 mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Toyota Corolla 33.9   4 71.1  65 4.22 1.835 19.90  1  1    4    1
## Fiat 128       32.4   4 78.7  66 4.08 2.200 19.47  1  1    4    1
## Honda Civic    30.4   4 75.7  52 4.93 1.615 18.52  1  1    4    2
## Lotus Europa   30.4   4 95.1 113 3.77 1.513 16.90  1  1    5    2
## Fiat X1-9      27.3   4 79.0  66 4.08 1.935 18.90  1  1    4    1

Resultado: Os carros mais eficientes são aqueles com maior valor de mpg. O Toyota Corolla lidera com 33.9 milhas por galão.

Filtragem dos Dados

Vamos filtrar apenas os carros com 6 cilindros e transmissão manual:

dados_filtrados <- dados %>%
  filter(cyl == 6, am == 1)

print(dados_filtrados)
##                mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Mazda RX4     21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
## Mazda RX4 Wag 21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
## Ferrari Dino  19.7   6  145 175 3.62 2.770 15.50  0  1    5    6

Resultado: Encontramos 3 carros que atendem aos critérios estabelecidos (6 cilindros e transmissão manual).

Criação de Novas Variáveis

Vamos criar três novas variáveis derivadas:

dados_modificados <- dados %>%
  mutate(
    # Razão potência/peso (hp por 1000 lbs)
    potencia_peso = hp / wt,
    
    # Categoria de eficiência
    categoria_eficiencia = case_when(
      mpg >= 25 ~ "Alta",
      mpg >= 18 ~ "Média",
      TRUE ~ "Baixa"
    ),
    
    # Consumo em litros/100km (conversão aproximada)
    consumo_l100km = 235.21 / mpg
  )

# Visualizando as novas variáveis
head(dados_modificados %>% select(mpg, potencia_peso, categoria_eficiencia, consumo_l100km))
##                    mpg potencia_peso categoria_eficiencia consumo_l100km
## Mazda RX4         21.0      41.98473                Média       11.20048
## Mazda RX4 Wag     21.0      38.26087                Média       11.20048
## Datsun 710        22.8      40.08621                Média       10.31623
## Hornet 4 Drive    21.4      34.21462                Média       10.99112
## Hornet Sportabout 18.7      50.87209                Média       12.57807
## Valiant           18.1      30.34682                Média       12.99503

Explicação das novas variáveis:

  1. potencia_peso: Indica quantos cavalos de potência o carro tem por unidade de peso. Valores mais altos indicam melhor performance relativa.

  2. categoria_eficiencia: Classifica os carros em três categorias baseadas no consumo de combustível.

  3. consumo_l100km: Converte a eficiência de mpg para litros por 100km, uma métrica mais comum em países que usam o sistema métrico.

Análise Estatística

resumo_estatistico <- dados_modificados %>%
  group_by(categoria_eficiencia) %>%
  summarise(
    n_carros = n(),
    mpg_medio = round(mean(mpg), 2),
    hp_medio = round(mean(hp), 2),
    peso_medio = round(mean(wt), 2),
    potencia_peso_media = round(mean(potencia_peso), 2)
  )

print(resumo_estatistico)
## # A tibble: 3 × 6
##   categoria_eficiencia n_carros mpg_medio hp_medio peso_medio
##   <chr>                   <int>     <dbl>    <dbl>      <dbl>
## 1 Alta                        6      30.1     75.5       1.87
## 2 Baixa                      13      14.7    208.        4.01
## 3 Média                      13      20.9    118.        3.04
## # ℹ 1 more variable: potencia_peso_media <dbl>

Interpretação:

  • Carros com alta eficiência tendem a ter menor potência e peso
  • Carros com baixa eficiência são geralmente mais pesados e potentes
  • A razão potência/peso é relativamente similar entre as categorias

Visualização dos Dados

ggplot(dados_modificados, aes(x = wt, y = mpg, color = categoria_eficiencia, size = hp)) +
  geom_point(alpha = 0.7) +
  labs(
    title = "Relação entre Peso, Eficiência e Potência",
    x = "Peso (1000 lbs)",
    y = "Milhas por Galão (mpg)",
    color = "Categoria de Eficiência",
    size = "Cavalos de Potência (hp)"
  ) +
  theme_minimal() +
  theme(legend.position = "right")

Análise do gráfico:

O gráfico revela uma clara relação inversa entre peso e eficiência de combustível. Carros mais pesados tendem a consumir mais combustível, enquanto veículos mais leves apresentam melhor eficiência.


2. Tabela Interativa com DT

Tabela Completa

datatable(
  dados_modificados,
  options = list(
    pageLength = 10,
    scrollX = TRUE,
    searchHighlight = TRUE,
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel')
  ),
  filter = 'top',
  caption = 'Tabela 1: Dados completos dos automóveis com variáveis calculadas',
  rownames = TRUE,
  class = 'cell-border stripe'
) %>%
  formatRound(columns = c('mpg', 'disp', 'hp', 'drat', 'wt', 'qsec', 
                          'potencia_peso', 'consumo_l100km'), digits = 2) %>%
  formatStyle(
    'categoria_eficiencia',
    backgroundColor = styleEqual(
      c('Alta', 'Média', 'Baixa'),
      c('#90EE90', '#FFD700', '#FF6347')
    )
  )

Instruções de Uso

Esta tabela interativa permite:

  • Busca: Use a caixa de busca para encontrar carros específicos
  • Ordenação: Clique nos cabeçalhos das colunas para ordenar
  • Filtragem: Use os filtros no topo de cada coluna
  • Paginação: Navegue entre as páginas usando os controles na parte inferior
  • Exportação: Os dados podem ser copiados ou exportados para CSV/Excel

3. Equações Matemáticas em LaTeX

Equação 1: Regressão Linear Múltipla

\[ Y = \beta_0 + \beta_1X_1 + \beta_2X_2 + \cdots + \beta_pX_p + \epsilon \]

Significado:

A equação de regressão linear múltipla modela a relação entre uma variável dependente \(Y\) e múltiplas variáveis independentes \(X_1, X_2, \ldots, X_p\). Os coeficientes \(\beta_i\) representam o impacto de cada variável preditora, \(\beta_0\) é o intercepto, e \(\epsilon\) representa o erro aleatório.

Equação 2: Teorema de Bayes

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} = \frac{P(B|A) \cdot P(A)}{\sum_{i=1}^{n} P(B|A_i) \cdot P(A_i)} \]

Significado:

O Teorema de Bayes é fundamental em estatística bayesiana e machine learning. Ele descreve a probabilidade de um evento \(A\) ocorrer dado que o evento \(B\) já ocorreu, baseado no conhecimento prévio sobre \(A\) e na verossimilhança de \(B\) dado \(A\). É essencial para modelos de classificação probabilística.

Equação 3: Entropia de Shannon

\[ H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \]

Significado:

A entropia de Shannon mede a quantidade média de informação (ou incerteza) em uma variável aleatória \(X\). Em ciência de dados, é utilizada em algoritmos de árvores de decisão para determinar a melhor divisão dos dados, quantificando a impureza ou desordem em um conjunto de dados.

Equação 4: Gradiente Descendente

\[ \theta_{t+1} = \theta_t - \alpha \nabla J(\theta_t) = \theta_t - \alpha \frac{\partial J(\theta_t)}{\partial \theta} \]

Significado:

O gradiente descendente é um algoritmo de otimização fundamental em machine learning usado para minimizar funções de custo. A equação mostra como os parâmetros \(\theta\) são atualizados iterativamente na direção oposta ao gradiente \(\nabla J(\theta)\), com taxa de aprendizado \(\alpha\), até convergir para um mínimo da função de custo \(J(\theta)\).

Equação 5: Matriz de Covariância

\[ \Sigma = \mathbb{E}[(X - \mu)(X - \mu)^T] = \begin{bmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp} \end{bmatrix} \]

Significado:

A matriz de covariância \(\Sigma\) captura as relações lineares entre todas as variáveis em um conjunto de dados multivariado. Cada elemento \(\sigma_{ij}\) representa a covariância entre as variáveis \(i\) e \(j\). É fundamental em análise de componentes principais (PCA), análise discriminante e muitos outros métodos de redução de dimensionalidade.


4. Figuras Relacionadas à Ciência de Dados

Figura 1: Processo de Ciência de Dados

Figura 1: Ciclo de vida completo de um projeto de Ciência de Dados, incluindo as etapas de coleta de dados, limpeza, exploração, modelagem, validação e comunicação dos resultados.

Figura 2: Algoritmos de Machine Learning

Figura 2: Taxonomia dos principais algoritmos de Machine Learning, organizados por tipo de aprendizado (supervisionado, não supervisionado e por reforço).


5. Referências Bibliográficas

Lista de Referências

  1. Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC. Disponível em: https://bookdown.org/yihui/rmarkdown/

  2. R Core Team (2024). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. Disponível em: https://www.r-project.org/

  3. Wickham, H. (2019). Advanced R (2nd ed.). CRC Press. Disponível em: https://adv-r.hadley.nz/

  4. R Documentation. cars dataset. Disponível em: https://stat.ethz.ch/R-manual/R-devel/library/datasets/html/cars.html

Notas sobre as Referências

Estas referências estão diretamente relacionadas ao conteúdo apresentado neste relatório:

  • Referência 1 → base conceitual do uso de R Markdown
  • Referência 2 → referência geral da linguagem R utilizada
  • Referência 3 → aprofundamento em linguagem R (funções, objetos, ambiente)
  • Referência 4 → documentação oficial do dataset cars utilizado na análise

Conclusão

Este relatório demonstrou o uso completo das funcionalidades do R Markdown, incluindo:

✓ Manipulação e análise de dados
✓ Criação de tabelas interativas com DT
✓ Apresentação de equações matemáticas complexas
✓ Inclusão de figuras relevantes
✓ Citação de referências bibliográficas

Todos os componentes foram organizados em abas.


Data de geração: 03 de novembro de 2025