Este relatório foi gerado utilizando R Markdown e visa demonstrar a capacidade de integrar análise de dados, visualização, tabelas interativas e documentação científica (LaTeX e referências) em um único documento HTML dinâmico. O conteúdo está organizado em abas temáticas, conforme solicitado.
Esta seção detalha o carregamento, a manipulação e a análise exploratória de um conjunto de dados simples.
Foi utilizado o conjunto de dados embutido mtcars, que
contém informações sobre 32 automóveis (1973-74 Motor Trend US
magazine).
# Carregando o dataset mtcars
dados_originais <- mtcars
# Exibindo as primeiras linhas e a estrutura dos dados
head(dados_originais)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Mazda RX4 21.0 6 160 110 3.90 2.620 16.46 0 1 4 4
## Mazda RX4 Wag 21.0 6 160 110 3.90 2.875 17.02 0 1 4 4
## Datsun 710 22.8 4 108 93 3.85 2.320 18.61 1 1 4 1
## Hornet 4 Drive 21.4 6 258 110 3.08 3.215 19.44 1 0 3 1
## Hornet Sportabout 18.7 8 360 175 3.15 3.440 17.02 0 0 3 2
## Valiant 18.1 6 225 105 2.76 3.460 20.22 1 0 3 1
str(dados_originais)
## 'data.frame': 32 obs. of 11 variables:
## $ mpg : num 21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
## $ cyl : num 6 6 4 6 8 6 8 4 4 6 ...
## $ disp: num 160 160 108 258 360 ...
## $ hp : num 110 110 93 110 175 105 245 62 95 123 ...
## $ drat: num 3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
## $ wt : num 2.62 2.88 2.32 3.21 3.44 ...
## $ qsec: num 16.5 17 18.6 19.4 17 ...
## $ vs : num 0 0 1 1 0 1 0 1 1 1 ...
## $ am : num 1 1 1 0 0 0 0 0 0 0 ...
## $ gear: num 4 4 4 3 3 3 3 4 4 4 ...
## $ carb: num 4 4 1 1 2 1 4 2 2 4 ...
A manipulação de dados será realizada utilizando o pacote
dplyr (parte do tidyverse). As operações
incluem:
wt_hp_ratio).cyl).mpg) em ordem decrescente.dados_manipulados <- dados_originais %>%
# 1. Criação de Nova Variável: Relação Peso/Potência
mutate(wt_hp_ratio = wt / hp) %>%
# 2. Filtragem: Carros com 6 ou 8 cilindros
filter(cyl %in% c(6, 8)) %>%
# 3. Ordenação: Pelo consumo (mpg) em ordem decrescente
arrange(desc(mpg)) %>%
tibble::rownames_to_column(var = "model") %>%
select(model, mpg, cyl, hp, wt, wt_hp_ratio)
# Exibindo o resultado da manipulação
head(dados_manipulados)
## model mpg cyl hp wt wt_hp_ratio
## 1 Hornet 4 Drive 21.4 6 110 3.215 0.02922727
## 2 Mazda RX4 21.0 6 110 2.620 0.02381818
## 3 Mazda RX4 Wag 21.0 6 110 2.875 0.02613636
## 4 Ferrari Dino 19.7 6 175 2.770 0.01582857
## 5 Merc 280 19.2 6 123 3.440 0.02796748
## 6 Pontiac Firebird 19.2 8 175 3.845 0.02197143
O código acima demonstra uma sequência de operações de transformação de dados comum em Ciência de Dados.
mutate() criou uma nova métrica, a
relação peso/potência, que é um indicador de
eficiência. Valores menores geralmente indicam melhor desempenho.filter() reduziu o conjunto de dados, focando
apenas em veículos de 6 e 8 cilindros, o que é útil para uma análise
comparativa dentro de uma categoria específica.arrange() garantiu que os carros mais
eficientes em termos de consumo (mpg mais alto) aparecessem
no topo da tabela.select() renomeou a coluna de índice para
model e manteve apenas as variáveis essenciais, facilitando
a visualização e interpretação.O resultado é um data frame limpo e pronto para análises mais aprofundadas ou visualizações.
Esta seção apresenta o conjunto de dados manipulado em uma
tabela interativa utilizando o pacote DT
(DataTables).
A tabela a seguir permite:
# Criando a tabela interativa com o pacote DT
datatable(
dados_manipulados,
options = list(
pageLength = 10, # Número de linhas por página
autoWidth = TRUE,
dom = 'Bfrtip' # Adiciona botões de exportação (opcional, mas útil)
),
caption = "Tabela Interativa de Carros (6 e 8 Cilindros) - Ordenada por MPG",
rownames = FALSE
)
A seguir, são apresentadas cinco equações complexas, formatadas utilizando a sintaxe LaTeX, juntamente com seus significados no contexto da Ciência de Dados ou Matemática Aplicada.
\[ \hat{y} = \beta_0 + \sum_{j=1}^{p} \beta_j x_j + \epsilon \]
Significado: Esta é a fórmula fundamental do modelo de Regressão Linear Múltipla. \(\hat{y}\) é o valor predito da variável dependente, \(\beta_0\) é o intercepto, \(\beta_j\) são os coeficientes de regressão para cada preditor \(x_j\), e \(\epsilon\) representa o termo de erro. É amplamente utilizada para modelar a relação entre uma variável de resposta e múltiplas variáveis preditoras.
\[ J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)})^2 \]
Significado: A Função de Custo do Erro Quadrático Médio (MSE), frequentemente usada em algoritmos de aprendizado de máquina (como Regressão Linear), mede a média dos quadrados dos erros entre as previsões do modelo \(h_\theta(x^{(i)})\) e os valores reais \(y^{(i)}\). O objetivo do treinamento é minimizar esta função de custo \(J(\theta)\).
\[ P(A|B) = \frac{P(B|A) P(A)}{P(B)} \]
Significado: O Teorema de Bayes é um princípio central na estatística e no aprendizado de máquina (por exemplo, no classificador Naive Bayes). Ele descreve a probabilidade de um evento \(A\) ocorrer dado que \(B\) ocorreu (\(P(A|B)\)), em termos da probabilidade de \(B\) ocorrer dado \(A\) (\(P(B|A)\)) e das probabilidades de \(A\) e \(B\) ocorrerem independentemente (\(P(A)\) e \(P(B)\)).
\[ \sigma(z) = \frac{1}{1 + e^{-z}} \]
Significado: A Função Sigmoide (ou função logística) é uma função de ativação crucial em redes neurais, especialmente na camada de saída para problemas de classificação binária. Ela mapeia qualquer valor real \(z\) para um valor entre 0 e 1, que pode ser interpretado como uma probabilidade.
\[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_b P(x_i) \]
Significado: A Entropia de Shannon \(H(X)\) é uma medida da incerteza ou impureza em um conjunto de dados. É fundamental em algoritmos de árvores de decisão (como ID3 e C4.5) para determinar o melhor atributo para dividir os dados, pois o objetivo é maximizar o ganho de informação (redução da entropia).
Esta seção contém duas figuras que ilustram conceitos importantes na área de Ciência de Dados.
A Figura 1 representa um fluxo de trabalho típico de análise de dados, desde a coleta até a implantação de um modelo ou solução.
A Figura 2 ilustra o conceito de Data Science como a intersecção de habilidades em programação, matemática/estatística e conhecimento de domínio.
Abaixo estão cinco referências bibliográficas relevantes para os tópicos abordados neste relatório (R Markdown, Ciência de Dados, Aprendizado de Máquina e Estatística).