Este relatório apresenta a resolução da atividade prática proposta, com o objetivo de demonstrar a criação de documentos dinâmicos e reprodutíveis utilizando o R Markdown.
A estrutura abaixo explora os conceitos de Storytelling com Dados e está dividida em abas interativas. O documento contempla desde a manipulação de conjuntos de dados e criação de tabelas dinâmicas em R, até a incorporação de elementos avançados de formatação, como equações matemáticas em LaTeX, figuras ilustrativas e o gerenciamento automatizado de referências bibliográficas.
Clique nas abas abaixo para navegar por cada etapa do desenvolvimento.
library(tidyverse)
# 1. Carregamento dos dados
dados <- mtcars
# 2. Manipulação: Filtragem, Criação de Variável e Ordenação
dados_processados <- dados %>%
filter(cyl > 4) %>% # Filtrar carros com mais de 4 cilindros
mutate(consumo_kml = mpg * 0.425) %>% # Converter milhas/galão para km/litro
arrange(desc(hp)) # Ordenar pela potência (Cavalos)
# Exibição das primeiras linhas
head(dados_processados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Maserati Bora 15.0 8 301 335 3.54 3.570 14.60 0 1 5 8
## Ford Pantera L 15.8 8 351 264 4.22 3.170 14.50 0 1 5 4
## Duster 360 14.3 8 360 245 3.21 3.570 15.84 0 0 3 4
## Camaro Z28 13.3 8 350 245 3.73 3.840 15.41 0 0 3 4
## Chrysler Imperial 14.7 8 440 230 3.23 5.345 17.42 0 0 3 4
## Lincoln Continental 10.4 8 460 215 3.00 5.424 17.82 0 0 3 4
## consumo_kml
## Maserati Bora 6.3750
## Ford Pantera L 6.7150
## Duster 360 6.0775
## Camaro Z28 5.6525
## Chrysler Imperial 6.2475
## Lincoln Continental 4.4200
library(DT)
datatable(dados_processados, options = list(pageLength = 5),
caption = 'Tabela 1: Dados de veículos com mais de 4 cilindros.')
Teorema de Bayes: \[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\] Significado: Calcula a probabilidade condicional de um evento com base em conhecimentos prévios.
Erro Quadrático Médio (MSE): \[MSE=\frac{1}{n}\sum_{i=1}^n(y_i-\hat{y}_i)^2\] Significado: Métrica usada para avaliar a precisão de modelos de regressão.
Função Sigmoide: \[S(x)=\frac{1}{1+e^{-x}}\] Significado: Função de ativação comum em redes neurais e regressão logística.
Entropia de Shannon: \[H(X)=-\sum_{i=1}^nP(x_i)\log P(x_i)\] Significado: Mede a incerteza ou desordem presente em um conjunto de informações.
Distribuição Normal (Gaussiana): \[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\] Significado: Modela fenômenos naturais onde a maioria das observações se agrupa em torno da média.
Abaixo, apresentamos duas figuras importantes para a compreensão de conceitos práticos e teóricos da Ciência de Dados:
Explicação da Figura 1: A imagem detalha a metodologia CRISP-DM (Cross-Industry Standard Process for Data Mining). Ela mostra que um projeto de Ciência de Dados não é linear, mas sim um ciclo iterativo que vai desde o entendimento do negócio e dos dados até a modelagem, avaliação e deploy (implantação), garantindo que a solução resolva o problema real da empresa.
Explicação da Figura 2: A imagem ilustra a estrutura clássica de uma Rede Neural Artificial. Os círculos representam os “neurônios” organizados em diferentes camadas. A figura demonstra como os dados entram pela camada verde (Input), passam por transformações matemáticas nas camadas azuis ocultas (Hidden) e geram previsões ou classificações na camada amarela final (Output).
Nesta seção, são apresentadas as obras fundamentais que serviram de base teórica para os conceitos de Ciência de Dados e Storytelling abordados neste relatório.
A lista abaixo é gerada de forma automática e padronizada a partir do
arquivo referencias.bib vinculado ao documento.