Neste item, utilizaremos o conjunto de dados nativo
mtcars
. Faremos as seguintes operações:
# Carregar dados
data(mtcars)
# 1) Ordenar por consumo (mpg) decrescente
mt_sorted <- mtcars %>%
arrange(desc(mpg))
# 2) Filtrar veículos com mais de 6 cilindros
mt_filtered <- mt_sorted %>%
filter(cyl > 6)
# 3) Criar nova variável: potência por peso (hp / wt)
mt_enhanced <- mt_filtered %>%
mutate(power_to_weight = hp / wt)
# Mostrar primeiros resultados
head(mt_enhanced)
## mpg cyl disp hp drat wt qsec vs am gear carb
## Pontiac Firebird 19.2 8 400.0 175 3.08 3.845 17.05 0 0 3 2
## Hornet Sportabout 18.7 8 360.0 175 3.15 3.440 17.02 0 0 3 2
## Merc 450SL 17.3 8 275.8 180 3.07 3.730 17.60 0 0 3 3
## Merc 450SE 16.4 8 275.8 180 3.07 4.070 17.40 0 0 3 3
## Ford Pantera L 15.8 8 351.0 264 4.22 3.170 14.50 0 1 5 4
## Dodge Challenger 15.5 8 318.0 150 2.76 3.520 16.87 0 0 3 2
## power_to_weight
## Pontiac Firebird 45.51365
## Hornet Sportabout 50.87209
## Merc 450SL 48.25737
## Merc 450SE 44.22604
## Ford Pantera L 83.28076
## Dodge Challenger 42.61364
Regressão Linear Simples: \[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \] Explicação: Este modelo busca descrever a relação linear entre uma variável dependente (\(Y_i\)) e uma única variável independente (\(X_i\)). \(\beta_0\) representa o valor esperado de \(Y\) quando \(X\) é zero, \(\beta_1\) indica a mudança em \(Y\) para cada unidade de aumento em \(X\), e \(\varepsilon_i\) representa o erro não explicado para cada observação.
Função de Perda de Erro Quadrático Médio (MSE): \[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] Explicação: O MSE quantifica a média do quadrado das diferenças entre os valores reais (\(y_i\)) e os valores previstos (\(\hat{y}_i\)) por um modelo de regressão. Ele fornece uma medida do erro total do modelo, penalizando maiores erros de forma mais significativa devido ao termo ao quadrado.
Função Sigmoide (Logística): \[ \sigma(z) = \frac{1}{1 + e^{-z}} \] Explicação: A função sigmoide comprime qualquer valor real (\(z\)) em um intervalo entre 0 e 1. Em modelos de classificação binária, a saída da sigmoide é interpretada como a probabilidade de uma instância pertencer à classe positiva. O argumento \(z\) é tipicamente uma combinação linear das variáveis de entrada ponderadas.
Função de Perda de Entropia Cruzada (Cross-Entropy Loss): \[ H(p, q) = - \sum_{i=1}^{N} p(x_i) \log q(x_i) \] Explicação: A entropia cruzada mede a dissimilaridade entre duas distribuições de probabilidade: a distribuição verdadeira das classes (\(p\)) e a distribuição de probabilidade prevista pelo modelo (\(q\)). Minimizar essa função durante o treinamento de modelos de classificação (como regressão logística ou redes neurais) força o modelo a gerar previsões de probabilidade mais próximas das probabilidades reais.
Similaridade do Cosseno: \[ \text{similaridade}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}} \] Explicação: A similaridade do cosseno calcula o cosseno do ângulo entre dois vetores (\(A\) e \(B\)). Ela mede a similaridade em termos de orientação, ou seja, se os vetores apontam na mesma direção. Um valor de 1 indica vetores perfeitamente alinhados, 0 indica que são ortogonais (não relacionados), e -1 indica direções opostas. A magnitude dos vetores não afeta essa medida de similaridade.
Nesta seção, apresentamos figuras ilustrativas de conceitos importantes em Ciência de Dados.
Fonte: Medium (Arquitetura de Perceptron de Múltiplas Camadas)
Curty & Cervantes (2016) Rautenberg & Carmo (2019) Vasconcelos & Barão (2017) Soares (2020) Saldanha et al. (2021)