Introdução

Este relatório atende todos os itens solicitados, organizados em ABAS/SEÇÕES.
Use o menu de abas logo abaixo para navegar. O Item 1 (manipulação de dados) está detalhado com código e explicações.

Conteúdo

1) Manipulação de Dados — Detalhado

Nesta seção vamos carregar um conjunto de dados simples (usar-se-á mtcars, presente no R base), realizar uma ordenação, filtragem e criação de novas variáveis. Em seguida, serão mostrados resultados e interpretações.

1.1 Carregamento dos dados

# Pacotes utilizados
# (Descomente se precisar instalar)
# install.packages(c("tidyverse", "DT", "ggplot2"))

library(tidyverse)

# Carregando o dataset mtcars
dados <- as_tibble(mtcars, rownames = "modelo")

# Visualização inicial (primeiras linhas)
head(dados)

Explicação: O dataset mtcars contém informações de carros (consumo, potência, peso, etc.). Ao usar as_tibble, adicionamos a coluna modelo a partir dos nomes das linhas.

1.2 Criação de novas variáveis

Criamos variáveis úteis para análise:

  • km_l: conversão aproximada de milhas por galão (mpg) para km/L (1 mpg ≈ 0.425144 km/L).
  • potencia_por_peso: relação potência/peso (hp dividido por wt).
  • alto_consumo: indicador lógico de veículos com alto consumo de combustível (definido, neste exemplo, como mpg >= 25).
dados_ext <- dados %>%
  mutate(
    km_l = mpg * 0.425144,
    potencia_por_peso = hp / wt,
    alto_consumo = mpg >= 25
  )

head(dados_ext)

Explicação: A criação de novas variáveis permite interpretar melhor o comportamento dos veículos, por exemplo, quantos km/L eles fazem e como a potência se relaciona com o peso.

1.3 Filtragem

Selecionar apenas carros com 4 ou 6 cilindros (cyl %in% c(4,6)) e peso abaixo de 3.5 (unidade: milhares de libras).

dados_filtrados <- dados_ext %>%
  filter(cyl %in% c(4, 6), wt < 3.5)

dados_filtrados

Explicação: O filtro destaca os modelos potencialmente mais eficientes (menos cilindros, menor peso), preparando a base para uma análise focada.

1.4 Ordenação

Ordenar por km_l (decrescente) para encontrar os veículos mais eficientes primeiro.

dados_ordenados <- dados_filtrados %>%
  arrange(desc(km_l))

dados_ordenados

Explicação: A ordenação facilita ranquear os veículos de acordo com o critério desejado (eficiência em km/L).

1.5 Resumo estatístico

Gerar estatísticas descritivas das variáveis de interesse (após os passos anteriores).

resumo <- dados_ordenados %>%
  summarise(
    n = n(),
    media_km_l = mean(km_l, na.rm = TRUE),
    desvio_km_l = sd(km_l, na.rm = TRUE),
    media_hp = mean(hp, na.rm = TRUE),
    media_pot_peso = mean(potencia_por_peso, na.rm = TRUE)
  )

resumo

Interpretação: O resumo ajuda a quantificar o comportamento médio do grupo filtrado, como eficiência média (km/L), potência média e a razão potência/peso.


2) Tabela Interativa (DT)

Aqui apresentamos uma tabela interativa com funcionalidades de ordenação, busca e paginação usando o pacote DT.

library(DT)

DT::datatable(
  dados_ordenados,
  extensions = c("Buttons"),
  options = list(
    pageLength = 10,
    autoWidth = TRUE,
    dom = 'Bfrtip',
    buttons = c('copy', 'csv', 'excel', 'print')
  ),
  rownames = FALSE,
  caption = "Tabela interativa dos veículos filtrados e ordenados (com novas variáveis)."
)

3) Equações (LaTeX) e Significados

Abaixo seguem cinco equações frequentes em ciência de dados/estatística, com seus significados.

  1. Regressão Linear — Mínimos Quadrados (Normal Equation)

\[ \hat{\beta} = (X^{\top}X)^{-1} X^{\top} y \]

Significado: Estimador de mínimos quadrados para os coeficientes \(\beta\) em um modelo de regressão linear \(y = X\beta + \varepsilon\).

  1. Atualização do Gradiente Descendente

\[ \theta_{t+1} = \theta_t - \eta \, \nabla_\theta \, \mathcal{L}(\theta_t) \]

Significado: Atualiza os parâmetros \(\theta\) na direção oposta ao gradiente da função de perda \(\mathcal{L}\), passo controlado pela taxa de aprendizado \(\eta\).

  1. Entropia de Shannon

\[ H(X) = - \sum_{i=1}^k p_i \, \log p_i \]

Significado: Medida de incerteza ou impureza de uma distribuição discreta, usada em árvores de decisão e teoria da informação.

  1. Teorema de Bayes

\[ P(A\mid B) = \frac{P(B\mid A)\,P(A)}{P(B)} \]

Significado: Atualiza a probabilidade de uma hipótese \(A\) após observar a evidência \(B\). Base de métodos bayesianos.

  1. Erro Quadrático Médio (RMSE)

\[ \text{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (\hat{y}_i - y_i)^2} \]

Significado: Métrica de desempenho que mede, em média, a magnitude do erro das previsões em relação aos valores verdadeiros.


4) Figuras (Ciência de Dados)

A seguir, duas figuras geradas com ggplot2 (relacionadas à análise exploratória).

4.1 Dispersão: Peso (wt) vs Consumo (mpg) com Linha de Regressão

library(ggplot2)

ggplot(dados_ext, aes(x = wt, y = mpg)) +
  geom_point() +
  geom_smooth(method = "lm", se = TRUE) +
  labs(
    title = "Peso vs Consumo (mpg)",
    x = "Peso (milhares de libras)",
    y = "Consumo (mpg)"
  )

Interpretação: Há tendência de menor consumo (mpg) conforme o peso aumenta.

4.2 Boxplots: Consumo por Nº de Cilindros

ggplot(dados_ext, aes(x = factor(cyl), y = mpg)) +
  geom_boxplot() +
  labs(
    title = "Distribuição do Consumo por Nº de Cilindros",
    x = "Cilindros",
    y = "Consumo (mpg)"
  )

Interpretação: Veículos com mais cilindros tendem a apresentar menor mpg (menor eficiência).


5) Referências

  • Breiman, L. (2001). Random forests. Machine Learning, 45(1), 5–32.
  • Cleveland, W. S. (1993). Visualizing Data. Summit, NJ: Hobart Press.
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning (2nd ed.). New York, NY: Springer.
  • Tukey, J. W. (1977). Exploratory Data Analysis. Reading, MA: Addison–Wesley.
  • Wickham, H., & Grolemund, G. (2017). R for Data Science. O’Reilly Media.

```