Este relatório atende todos os itens solicitados,
organizados em ABAS/SEÇÕES.
Use o menu de abas logo abaixo para navegar. O Item 1
(manipulação de dados) está detalhado com código e
explicações.
Nesta seção vamos carregar um conjunto de dados simples (usar-se-á
mtcars, presente no R base), realizar uma
ordenação, filtragem e criação
de novas variáveis. Em seguida, serão mostrados
resultados e interpretações.
# Pacotes utilizados
# (Descomente se precisar instalar)
# install.packages(c("tidyverse", "DT", "ggplot2"))
library(tidyverse)
# Carregando o dataset mtcars
dados <- as_tibble(mtcars, rownames = "modelo")
# Visualização inicial (primeiras linhas)
head(dados)
Explicação: O dataset mtcars contém
informações de carros (consumo, potência, peso, etc.). Ao usar
as_tibble, adicionamos a coluna modelo a
partir dos nomes das linhas.
Criamos variáveis úteis para análise:
km_l: conversão aproximada de milhas por galão (mpg)
para km/L (1 mpg ≈ 0.425144 km/L).potencia_por_peso: relação potência/peso
(hp dividido por wt).alto_consumo: indicador lógico de veículos com
alto consumo de combustível (definido, neste exemplo,
como mpg >= 25).dados_ext <- dados %>%
mutate(
km_l = mpg * 0.425144,
potencia_por_peso = hp / wt,
alto_consumo = mpg >= 25
)
head(dados_ext)
Explicação: A criação de novas variáveis permite interpretar melhor o comportamento dos veículos, por exemplo, quantos km/L eles fazem e como a potência se relaciona com o peso.
Selecionar apenas carros com 4 ou 6 cilindros
(cyl %in% c(4,6)) e peso abaixo de 3.5
(unidade: milhares de libras).
dados_filtrados <- dados_ext %>%
filter(cyl %in% c(4, 6), wt < 3.5)
dados_filtrados
Explicação: O filtro destaca os modelos potencialmente mais eficientes (menos cilindros, menor peso), preparando a base para uma análise focada.
Ordenar por km_l (decrescente) para encontrar os veículos mais eficientes primeiro.
dados_ordenados <- dados_filtrados %>%
arrange(desc(km_l))
dados_ordenados
Explicação: A ordenação facilita ranquear os veículos de acordo com o critério desejado (eficiência em km/L).
Gerar estatísticas descritivas das variáveis de interesse (após os passos anteriores).
resumo <- dados_ordenados %>%
summarise(
n = n(),
media_km_l = mean(km_l, na.rm = TRUE),
desvio_km_l = sd(km_l, na.rm = TRUE),
media_hp = mean(hp, na.rm = TRUE),
media_pot_peso = mean(potencia_por_peso, na.rm = TRUE)
)
resumo
Interpretação: O resumo ajuda a quantificar o comportamento médio do grupo filtrado, como eficiência média (km/L), potência média e a razão potência/peso.
Aqui apresentamos uma tabela interativa com funcionalidades de ordenação, busca e paginação usando o pacote DT.
library(DT)
DT::datatable(
dados_ordenados,
extensions = c("Buttons"),
options = list(
pageLength = 10,
autoWidth = TRUE,
dom = 'Bfrtip',
buttons = c('copy', 'csv', 'excel', 'print')
),
rownames = FALSE,
caption = "Tabela interativa dos veículos filtrados e ordenados (com novas variáveis)."
)
Abaixo seguem cinco equações frequentes em ciência de dados/estatística, com seus significados.
\[ \hat{\beta} = (X^{\top}X)^{-1} X^{\top} y \]
Significado: Estimador de mínimos quadrados para os coeficientes \(\beta\) em um modelo de regressão linear \(y = X\beta + \varepsilon\).
\[ \theta_{t+1} = \theta_t - \eta \, \nabla_\theta \, \mathcal{L}(\theta_t) \]
Significado: Atualiza os parâmetros \(\theta\) na direção oposta ao gradiente da função de perda \(\mathcal{L}\), passo controlado pela taxa de aprendizado \(\eta\).
\[ H(X) = - \sum_{i=1}^k p_i \, \log p_i \]
Significado: Medida de incerteza ou impureza de uma distribuição discreta, usada em árvores de decisão e teoria da informação.
\[ P(A\mid B) = \frac{P(B\mid A)\,P(A)}{P(B)} \]
Significado: Atualiza a probabilidade de uma hipótese \(A\) após observar a evidência \(B\). Base de métodos bayesianos.
\[ \text{RMSE} = \sqrt{\frac{1}{n}\sum_{i=1}^{n} (\hat{y}_i - y_i)^2} \]
Significado: Métrica de desempenho que mede, em média, a magnitude do erro das previsões em relação aos valores verdadeiros.
A seguir, duas figuras geradas com ggplot2 (relacionadas
à análise exploratória).
library(ggplot2)
ggplot(dados_ext, aes(x = wt, y = mpg)) +
geom_point() +
geom_smooth(method = "lm", se = TRUE) +
labs(
title = "Peso vs Consumo (mpg)",
x = "Peso (milhares de libras)",
y = "Consumo (mpg)"
)
Interpretação: Há tendência de menor consumo (mpg) conforme o peso aumenta.
ggplot(dados_ext, aes(x = factor(cyl), y = mpg)) +
geom_boxplot() +
labs(
title = "Distribuição do Consumo por Nº de Cilindros",
x = "Cilindros",
y = "Consumo (mpg)"
)
Interpretação: Veículos com mais cilindros tendem a apresentar menor mpg (menor eficiência).
```