#Carregamento dos dados
data(mtcars)
# Ordenação básica (arrange) da coluna hp de forma crescente.
mtcars <- mtcars %>% arrange(hp)
# Filtragem por peso (wt) menor que 3.
mtcars <- mtcars %>% filter(wt < 3)
# Criação da coluna Eficiência e atribuição de Alta ou Baixa com base na média de mpg.
mtcars$Eficiência <- ifelse(mtcars$mpg > mean(mtcars$mpg), "Alta", "Baixa")
# Criação da coluna Categoria com base no número de cilindros.
mtcars$Categoria <- case_when(
  mtcars$cyl == 4 ~ "Econômico",
  mtcars$cyl == 6 ~ "Intermediário",
  mtcars$cyl == 8 ~ "Potente",
  TRUE ~ "Outro"
)
# Visualização do resultado
head(mtcars)
##                 mpg cyl  disp hp drat    wt  qsec vs am gear carb Eficiência
## Honda Civic    30.4   4  75.7 52 4.93 1.615 18.52  1  1    4    2       Alta
## Toyota Corolla 33.9   4  71.1 65 4.22 1.835 19.90  1  1    4    1       Alta
## Fiat 128       32.4   4  78.7 66 4.08 2.200 19.47  1  1    4    1       Alta
## Fiat X1-9      27.3   4  79.0 66 4.08 1.935 18.90  1  1    4    1       Alta
## Porsche 914-2  26.0   4 120.3 91 4.43 2.140 16.70  0  1    5    2       Alta
## Datsun 710     22.8   4 108.0 93 3.85 2.320 18.61  1  1    4    1      Baixa
##                Categoria
## Honda Civic    Econômico
## Toyota Corolla Econômico
## Fiat 128       Econômico
## Fiat X1-9      Econômico
## Porsche 914-2  Econômico
## Datsun 710     Econômico
O TF-IDF é uma medida estatística usada em NLP para avaliar a importância de uma palavra em um documento em relação a um conjunto de documentos (corpus). Ele é calculado como o produto da frequência da palavra no documento (TF) e o logaritmo inverso da frequência de documentos que contêm a palavra (IDF).
\[ \text{TF-IDF}(t, d) = \text{TF}(t, d) \cdot \log \frac{N}{\text{DF}(t)} \]
O gradiente descendente é um algoritmo de otimização usado para minimizar funções de custo em aprendizado de máquina. Ele ajusta os parâmetros iterativamente na direção do gradiente negativo da função de custo.
\[ \theta_j := \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j} \]
A matriz de confusão é uma ferramenta para avaliar o desempenho de um modelo de classificação. Ela compara os valores reais com os valores previstos, organizando os resultados em categorias como Verdadeiros Positivos (TP), Falsos Positivos (FP), Verdadeiros Negativos (TN) e Falsos Negativos (FN).
A matriz de confusão pode ser representada como:
\[ \begin{bmatrix} TP & FP \\ FN & TN \end{bmatrix} \]
O K-Means é um algoritmo de agrupamento que particiona os dados em \(k\) clusters. Ele minimiza a soma das distâncias quadradas entre os pontos e o centróide do cluster ao qual pertencem.
\[ J = \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2 \]
A função de perda Cross-Entropy é usada em problemas de classificação para medir a diferença entre as distribuições de probabilidade previstas e as reais.
\[ L = -\sum_{i=1}^{n} y_i \log(\hat{y}_i) \]
Fonte: Scikit-learn
Fonte: Pandas Documentation