Análise de Dados

Nesta seção principal, apresentamos os resultados divididos em abas específicas para facilitar a navegação e a compreensão das etapas do relatório.

1. Manipulação de Dados

Para esta etapa, utilizaremos o conjunto de dados nativo do R chamado mtcars, que extrai informações de testes de estrada da revista Motor Trend (1974).

Objetivo da Manipulação: Filtraremos carros que possuem mais de 4 cilindros, ordenaremos pelo número de cavalos de potência (hp) em ordem decrescente e criaremos uma nova variável chamada hp_per_cyl, que representa a proporção de cavalos de potência por cilindro.

# 1. Carregando os dados originais
dados_brutos <- mtcars

# 2. Manipulação com dplyr
dados_manipulados <- dados_brutos %>%
  # Filtragem: Selecionando apenas carros com mais de 4 cilindros
  filter(cyl > 4) %>%
  # Criação de nova variável: Potência dividida pelo número de cilindros
  mutate(hp_per_cyl = round(hp / cyl, 2)) %>%
  # Ordenação: Do mais potente para o menos potente (baseado no hp total)
  arrange(desc(hp))

# 3. Exibindo os primeiros resultados da manipulação
head(dados_manipulados)
##                      mpg cyl disp  hp drat    wt  qsec vs am gear carb
## Maserati Bora       15.0   8  301 335 3.54 3.570 14.60  0  1    5    8
## Ford Pantera L      15.8   8  351 264 4.22 3.170 14.50  0  1    5    4
## Duster 360          14.3   8  360 245 3.21 3.570 15.84  0  0    3    4
## Camaro Z28          13.3   8  350 245 3.73 3.840 15.41  0  0    3    4
## Chrysler Imperial   14.7   8  440 230 3.23 5.345 17.42  0  0    3    4
## Lincoln Continental 10.4   8  460 215 3.00 5.424 17.82  0  0    3    4
##                     hp_per_cyl
## Maserati Bora            41.88
## Ford Pantera L           33.00
## Duster 360               30.62
## Camaro Z28               30.62
## Chrysler Imperial        28.75
## Lincoln Continental      26.88

Explicação dos Resultados: O código acima pegou um conjunto de dados brutos e filtrou modelos mais básicos (4 cilindros). A nova variável hp_per_cyl permite analisar a eficiência do motor em gerar potência baseada no número de cilindros. Ao ordenar de forma decrescente por hp, vemos que o Maserati Bora lidera a lista dos carros analisados.

2. Tabela Interativa (DT)

Abaixo, apresentamos o conjunto de dados manipulado na aba anterior utilizando o pacote DT. Esta tabela permite que você ordene as colunas clicando nos cabeçalhos, busque por modelos específicos na barra de pesquisa e navegue pelas páginas.

# Renderizando a tabela interativa
datatable(dados_manipulados, 
          options = list(pageLength = 5, 
                         autoWidth = TRUE,
                         language = list(url = '//cdn.datatables.net/plug-ins/1.10.11/i18n/Portuguese-Brasil.json')),
          caption = "Tabela 1: Veículos com mais de 4 cilindros e eficiência de motor.")

3. Equações Matemáticas (LaTeX)

Abaixo estão cinco equações complexas frequentemente utilizadas na Ciência de Dados e Estatística, formatadas utilizando a sintaxe LaTeX:

1. Função de Densidade de Probabilidade da Distribuição Normal

\[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

Significado: Descreve como os valores de uma variável contínua se distribuem em uma curva de “sino”, onde \(\mu\) é a média e \(\sigma\) é o desvio padrão.

2. Teorema de Bayes

\[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\]

Significado: Calcula a probabilidade condicional de um evento \(A\) ocorrer dado que o evento \(B\) já ocorreu, fundamental em algoritmos de classificação como o Naive Bayes.

3. Modelo de Regressão Linear Múltipla

\[y=\beta_0+\beta_1x_1+\beta_2x_2+\cdots+\beta_nx_n+\epsilon\]

Significado: Modela a relação entre uma variável dependente \(y\) e múltiplas variáveis independentes \(x\), onde os \(\beta\) são os coeficientes a serem aprendidos e \(\epsilon\) é o termo de erro.

4. Função de Ativação Sigmoide

\[\sigma(z)=\frac{1}{1+e^{-z}}\]

Significado: Mapeia qualquer valor real \(z\) para um intervalo entre 0 e 1. É amplamente utilizada em regressão logística para prever probabilidades e em redes neurais.

5. Erro Quadrático Médio (MSE)

\[MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2\]

Significado: Uma função de custo utilizada para avaliar o desempenho de modelos de regressão, medindo a média dos quadrados das diferenças entre os valores reais (\(y_i\)) e os valores previstos (\(\hat{y}_i\)).

4. Figuras de Ciência de Dados

Abaixo estão duas ilustrações fundamentais para compreender o fluxo e as tecnologias do universo de dados:

Figura 1: O Processo de Ciência de Dados

Figura 1: O Processo de Ciência de Dados
Figura 1: O Processo de Ciência de Dados

Figura 2: Cientista de dados trabalhando

Cientista de dados trabalhando
Cientista de dados trabalhando

5. Referências Bibliográficas

As seguintes obras são fundamentais para o aprofundamento nos temas de análise, manipulação e storytelling com dados:

  1. Cairo, A. (2016). The Truthful Art: Data, Charts, and Maps for Communication. New Riders.
  2. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
  3. Nussbaumer Knaflic, C. (2015). Storytelling with Data: A Data Visualization Guide for Business Professionals. Wiley.
  4. Tufte, E. R. (2001). The Visual Display of Quantitative Information (2nd ed.). Graphics Press.
  5. Wickham, H., & Grolemund, G. (2016). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media.