Nesta seção principal, apresentamos os resultados divididos em abas específicas para facilitar a navegação e a compreensão das etapas do relatório.
Para esta etapa, utilizaremos o conjunto de dados nativo do R chamado
mtcars, que extrai informações de testes de estrada da
revista Motor Trend (1974).
Objetivo da Manipulação: Filtraremos carros que
possuem mais de 4 cilindros, ordenaremos pelo número de cavalos de
potência (hp) em ordem decrescente e criaremos uma nova
variável chamada hp_per_cyl, que representa a proporção de
cavalos de potência por cilindro.
# 1. Carregando os dados originais
dados_brutos <- mtcars
# 2. Manipulação com dplyr
dados_manipulados <- dados_brutos %>%
# Filtragem: Selecionando apenas carros com mais de 4 cilindros
filter(cyl > 4) %>%
# Criação de nova variável: Potência dividida pelo número de cilindros
mutate(hp_per_cyl = round(hp / cyl, 2)) %>%
# Ordenação: Do mais potente para o menos potente (baseado no hp total)
arrange(desc(hp))
# 3. Exibindo os primeiros resultados da manipulação
head(dados_manipulados)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Maserati Bora 15.0 8 301 335 3.54 3.570 14.60 0 1 5 8
## Ford Pantera L 15.8 8 351 264 4.22 3.170 14.50 0 1 5 4
## Duster 360 14.3 8 360 245 3.21 3.570 15.84 0 0 3 4
## Camaro Z28 13.3 8 350 245 3.73 3.840 15.41 0 0 3 4
## Chrysler Imperial 14.7 8 440 230 3.23 5.345 17.42 0 0 3 4
## Lincoln Continental 10.4 8 460 215 3.00 5.424 17.82 0 0 3 4
## hp_per_cyl
## Maserati Bora 41.88
## Ford Pantera L 33.00
## Duster 360 30.62
## Camaro Z28 30.62
## Chrysler Imperial 28.75
## Lincoln Continental 26.88
Explicação dos Resultados: O código acima pegou um
conjunto de dados brutos e filtrou modelos mais básicos (4 cilindros). A
nova variável hp_per_cyl permite analisar a eficiência do
motor em gerar potência baseada no número de cilindros. Ao ordenar de
forma decrescente por hp, vemos que o Maserati
Bora lidera a lista dos carros analisados.
Abaixo, apresentamos o conjunto de dados manipulado na aba anterior
utilizando o pacote DT. Esta tabela permite que você ordene
as colunas clicando nos cabeçalhos, busque por modelos específicos na
barra de pesquisa e navegue pelas páginas.
# Renderizando a tabela interativa
datatable(dados_manipulados,
options = list(pageLength = 5,
autoWidth = TRUE,
language = list(url = '//cdn.datatables.net/plug-ins/1.10.11/i18n/Portuguese-Brasil.json')),
caption = "Tabela 1: Veículos com mais de 4 cilindros e eficiência de motor.")
Abaixo estão cinco equações complexas frequentemente utilizadas na Ciência de Dados e Estatística, formatadas utilizando a sintaxe LaTeX:
1. Função de Densidade de Probabilidade da Distribuição Normal
\[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
Significado: Descreve como os valores de uma variável contínua se distribuem em uma curva de “sino”, onde \(\mu\) é a média e \(\sigma\) é o desvio padrão.
2. Teorema de Bayes
\[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\]
Significado: Calcula a probabilidade condicional de um evento \(A\) ocorrer dado que o evento \(B\) já ocorreu, fundamental em algoritmos de classificação como o Naive Bayes.
3. Modelo de Regressão Linear Múltipla
\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilon\]
Significado: Modela a relação entre uma variável dependente \(y\) e múltiplas variáveis independentes \(x\), onde os \(\beta\) são os coeficientes a serem aprendidos e \(\epsilon\) é o termo de erro.
4. Função de Ativação Sigmoide
\[\sigma(z)=\frac{1}{1+e^{-z}}\]
Significado: Mapeia qualquer valor real \(z\) para um intervalo entre 0 e 1. É amplamente utilizada em regressão logística para prever probabilidades e em redes neurais.
5. Erro Quadrático Médio (MSE)
\[MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\]
Significado: Uma função de custo utilizada para avaliar o desempenho de modelos de regressão, medindo a média dos quadrados das diferenças entre os valores reais (\(y_i\)) e os valores previstos (\(\hat{y}_i\)).
Abaixo estão duas ilustrações fundamentais para compreender o fluxo e as tecnologias do universo de dados:
Figura 1: O Processo de Ciência de Dados
Figura 2: Cientista de dados trabalhando
As seguintes obras são fundamentais para o aprofundamento nos temas de análise, manipulação e storytelling com dados: