Análise de Dados

1. Manipulação de Dados

Carregamento e Manipulações

#Carregamento dos dados
data(mtcars)

#Ordenação básica (arrange) da coluna mpg de forma decrescente.
mtcars <- mtcars %>% arrange(desc(mpg))

#Filtragem por cilíndro maior ou iguala 6.
mtcars <- mtcars %>% filter(cyl >= 6)

#Criação da coluna Rapidez e atribuição de Rápido ou Lento com base na média de qsec.
mtcars$Rapidez <- ifelse(mtcars$qsec < mean(mtcars$qsec), "Rápido", "Lento")

#Visualização do resultado
head(mtcars)
##                   mpg cyl  disp  hp drat    wt  qsec vs am gear carb Rapidez
## Hornet 4 Drive   21.4   6 258.0 110 3.08 3.215 19.44  1  0    3    1   Lento
## Mazda RX4        21.0   6 160.0 110 3.90 2.620 16.46  0  1    4    4  Rápido
## Mazda RX4 Wag    21.0   6 160.0 110 3.90 2.875 17.02  0  1    4    4  Rápido
## Ferrari Dino     19.7   6 145.0 175 3.62 2.770 15.50  0  1    5    6  Rápido
## Merc 280         19.2   6 167.6 123 3.92 3.440 18.30  1  0    4    4   Lento
## Pontiac Firebird 19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2  Rápido

2. Tabela Interativa

Tabela interativa com 8 elementos por página

3. Equações complexas

Teorema de Bayes

O Teorema de Bayes descreve como atualizar a probabilidade de um evento A ocorrer com base na ocorrência de outro evento B. Ele permite calcular a probabilidade de A dado B, usando o conhecimento da probabilidade de B dado A e das probabilidades individuais de A e B.

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

Regressão Linear Múltipla

É uma extensão da regressão linear simples. A regressão linear simples utiliza apenas uma variável de previsão \(X\) para prever valores de uma variável dependente \(Y\). No caso da regressão linear múltipla é o uso de múltiplas variáveis \(X\) para prever \(Y\)

\[ Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + ... + \beta_n X_n + \epsilon \]

Entropia de Shannon

Fornece uma medida de incerteza de uma dada distribuição de probabilidade, ou seja, quantifica a incerteza associada a um conjunto de eventos possíveis.

\[ H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i) \]

Distância Euclidiana entre dois pontos

A equação de distância euclidiana entre dois pontos calcula a distância entre dois vetores \(p\) e \(q\) em um espaço \(n-dimensional\). Muito utilizada em algoritmos de classificação.

\[ d(p, q) = \sqrt{ \sum_{i=1}^{n} (p_i - q_i)^2 } \]

Função Sigmoide

Função matemática que transforma um número real em um valor entre \(0\) e \(1\), ou seja, em um intervalo de \((0, 1)\). Esta função é usada como função de ativação em redes neurais

\[ \sigma(x) = \frac{1}{1 + e^{-x}} \]

4. Figuras de Ciência de Dados

Gráfico da Função Sigmoide

Fonte: [Wikipédia](https://pt.wikipedia.org/wiki/Fun%C3%A7%C3%A3o_sigmoide)

Fonte: Wikipédia

Classificação usando KNN

5. Referências Bibliográficas

Brynjolfsson, Erik, Lorin M. Hitt, and Heekyung Hellen Kim. 2011. “Strength in Numbers: How Does Data-Driven Decisionmaking Affect Firm Performance?” Research Paper. SSRN Electronic Journal, April. https://doi.org/10.2139.
Fawcett, Tom, and Foster Provost. 2013. Data Science for Business: What You Need to Know about Data Mining and Data-Analytic Thinking. 1st ed. Sebastopol, CA: O’Reilly Media, Inc. https://books.google.com.br/books?id=4ZctAAAAQBAJ.
Martens, David, and Foster Provost. 2011. “Pseudo-Social Network Targeting from Consumer Transaction Data.” Working Paper CEDER-11-05. New York University, Stern School of Business. https://ssrn.com/abstract=1934670.
Nascimento, Wallas Santos. 2013. “Sobre Algumas Características Da Entropia de Shannon Para Sistemas Atômicos Confinados.” Dissertação de Mestrado, Universidade Federal da Bahia, Instituto de Física. https://repositorio.ufba.br/bitstream/ri/28664/1/disserta%C3%A7%C3%A3o_wallas_final.pdf.
Provost, Foster, and Tom Fawcett. 2013. “Data Science and Its Relationship to Big Data and Data-Driven Decision Making.” Big Data 1 (1). https://doi.org/10.1089.