Análise de Dados

1. Manipulação de Dados

Carregamento e Manipulações

#Carregamento dos dados
data(mtcars)

# Ordenação básica (arrange) da coluna hp de forma crescente.
mtcars <- mtcars %>% arrange(hp)

# Filtragem por peso (wt) menor que 3.
mtcars <- mtcars %>% filter(wt < 3)

# Criação da coluna Eficiência e atribuição de Alta ou Baixa com base na média de mpg.
mtcars$Eficiência <- ifelse(mtcars$mpg > mean(mtcars$mpg), "Alta", "Baixa")

# Criação da coluna Categoria com base no número de cilindros.
mtcars$Categoria <- case_when(
  mtcars$cyl == 4 ~ "Econômico",
  mtcars$cyl == 6 ~ "Intermediário",
  mtcars$cyl == 8 ~ "Potente",
  TRUE ~ "Outro"
)

# Visualização do resultado
head(mtcars)
##                 mpg cyl  disp hp drat    wt  qsec vs am gear carb Eficiência
## Honda Civic    30.4   4  75.7 52 4.93 1.615 18.52  1  1    4    2       Alta
## Toyota Corolla 33.9   4  71.1 65 4.22 1.835 19.90  1  1    4    1       Alta
## Fiat 128       32.4   4  78.7 66 4.08 2.200 19.47  1  1    4    1       Alta
## Fiat X1-9      27.3   4  79.0 66 4.08 1.935 18.90  1  1    4    1       Alta
## Porsche 914-2  26.0   4 120.3 91 4.43 2.140 16.70  0  1    5    2       Alta
## Datsun 710     22.8   4 108.0 93 3.85 2.320 18.61  1  1    4    1      Baixa
##                Categoria
## Honda Civic    Econômico
## Toyota Corolla Econômico
## Fiat 128       Econômico
## Fiat X1-9      Econômico
## Porsche 914-2  Econômico
## Datsun 710     Econômico

2. Tabela Interativa

Tabela interativa com 5 elementos por página

3. Equações complexas

Term Frequency-Inverse Document Frequency (TF-IDF)

O TF-IDF é uma medida estatística usada em NLP para avaliar a importância de uma palavra em um documento em relação a um conjunto de documentos (corpus). Ele é calculado como o produto da frequência da palavra no documento (TF) e o logaritmo inverso da frequência de documentos que contêm a palavra (IDF).

\[ \text{TF-IDF}(t, d) = \text{TF}(t, d) \cdot \log \frac{N}{\text{DF}(t)} \]

Gradiente Descendente

O gradiente descendente é um algoritmo de otimização usado para minimizar funções de custo em aprendizado de máquina. Ele ajusta os parâmetros iterativamente na direção do gradiente negativo da função de custo.

\[ \theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j} \]

Matriz de Confusão

A matriz de confusão é uma ferramenta para avaliar o desempenho de um modelo de classificação. Ela compara os valores reais com os valores previstos, organizando os resultados em categorias como Verdadeiros Positivos (TP), Falsos Positivos (FP), Verdadeiros Negativos (TN) e Falsos Negativos (FN).

A matriz de confusão pode ser representada como:

\[ \begin{bmatrix} TP & FP \\ FN & TN \end{bmatrix} \]

Algoritmo K-Means

O K-Means é um algoritmo de agrupamento que particiona os dados em \(k\) clusters. Ele minimiza a soma das distâncias quadradas entre os pontos e o centróide do cluster ao qual pertencem.

\[ J = \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2 \]

Função de Perda Cross-Entropy

A função de perda Cross-Entropy é usada em problemas de classificação para medir a diferença entre as distribuições de probabilidade previstas e as reais.

\[ L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) \]

4. Figuras de Ciência de Dados

Árvore de Decisão

Fonte: [Scikit-learn](https://scikit-learn.org/stable/auto_examples/tree/plot_tree_regression.html)

Fonte: Scikit-learn

Pandas

5. Referências Bibliográficas

Brynjolfsson, Erik, and Andrew McAfee. 2011. Race Against the Machine. Digital Frontier Press.
Martens, David, and Foster Provost. 2011. “Explaining Data-Driven Document Classifications.” MIS Quarterly 35 (1): 213–44.
Nascimento, João. 2013. Introdução à Análise de Dados. Editora Acadêmica.
Provost, Foster, and Tom Fawcett. 2013a. “Data Science and Its Relationship to Big Data and Data-Driven Decision Making.” Big Data 1 (1): 51–59.
———. 2013b. Data Science for Business. O’Reilly Media.