Introdução ao R Markdown

Manipulação de Dados

Neste item, utilizaremos o conjunto de dados nativo mtcars. Faremos as seguintes operações:

# Carregar dados
data(mtcars)

# 1) Ordenar por consumo (mpg) decrescente
mt_sorted <- mtcars %>%
  arrange(desc(mpg))

# 2) Filtrar veículos com mais de 6 cilindros
mt_filtered <- mt_sorted %>%
  filter(cyl > 6)

# 3) Criar nova variável: potência por peso (hp / wt)
mt_enhanced <- mt_filtered %>%
  mutate(power_to_weight = hp / wt)

# Mostrar primeiros resultados
head(mt_enhanced)
##                    mpg cyl  disp  hp drat    wt  qsec vs am gear carb
## Pontiac Firebird  19.2   8 400.0 175 3.08 3.845 17.05  0  0    3    2
## Hornet Sportabout 18.7   8 360.0 175 3.15 3.440 17.02  0  0    3    2
## Merc 450SL        17.3   8 275.8 180 3.07 3.730 17.60  0  0    3    3
## Merc 450SE        16.4   8 275.8 180 3.07 4.070 17.40  0  0    3    3
## Ford Pantera L    15.8   8 351.0 264 4.22 3.170 14.50  0  1    5    4
## Dodge Challenger  15.5   8 318.0 150 2.76 3.520 16.87  0  0    3    2
##                   power_to_weight
## Pontiac Firebird         45.51365
## Hornet Sportabout        50.87209
## Merc 450SL               48.25737
## Merc 450SE               44.22604
## Ford Pantera L           83.28076
## Dodge Challenger         42.61364

Tabela Interativa

Equações em LaTeX

  1. Regressão Linear Simples: \[ Y_i = \beta_0 + \beta_1 X_i + \varepsilon_i \] Explicação: Este modelo busca descrever a relação linear entre uma variável dependente (\(Y_i\)) e uma única variável independente (\(X_i\)). \(\beta_0\) representa o valor esperado de \(Y\) quando \(X\) é zero, \(\beta_1\) indica a mudança em \(Y\) para cada unidade de aumento em \(X\), e \(\varepsilon_i\) representa o erro não explicado para cada observação.

  2. Função de Perda de Erro Quadrático Médio (MSE): \[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \] Explicação: O MSE quantifica a média do quadrado das diferenças entre os valores reais (\(y_i\)) e os valores previstos (\(\hat{y}_i\)) por um modelo de regressão. Ele fornece uma medida do erro total do modelo, penalizando maiores erros de forma mais significativa devido ao termo ao quadrado.

  3. Função Sigmoide (Logística): \[ \sigma(z) = \frac{1}{1 + e^{-z}} \] Explicação: A função sigmoide comprime qualquer valor real (\(z\)) em um intervalo entre 0 e 1. Em modelos de classificação binária, a saída da sigmoide é interpretada como a probabilidade de uma instância pertencer à classe positiva. O argumento \(z\) é tipicamente uma combinação linear das variáveis de entrada ponderadas.

  4. Função de Perda de Entropia Cruzada (Cross-Entropy Loss): \[ H(p, q) = - \sum_{i=1}^{N} p(x_i) \log q(x_i) \] Explicação: A entropia cruzada mede a dissimilaridade entre duas distribuições de probabilidade: a distribuição verdadeira das classes (\(p\)) e a distribuição de probabilidade prevista pelo modelo (\(q\)). Minimizar essa função durante o treinamento de modelos de classificação (como regressão logística ou redes neurais) força o modelo a gerar previsões de probabilidade mais próximas das probabilidades reais.

  5. Similaridade do Cosseno: \[ \text{similaridade}(A, B) = \frac{A \cdot B}{\|A\| \|B\|} = \frac{\sum_{i=1}^{n} A_i B_i}{\sqrt{\sum_{i=1}^{n} A_i^2} \sqrt{\sum_{i=1}^{n} B_i^2}} \] Explicação: A similaridade do cosseno calcula o cosseno do ângulo entre dois vetores (\(A\) e \(B\)). Ela mede a similaridade em termos de orientação, ou seja, se os vetores apontam na mesma direção. Um valor de 1 indica vetores perfeitamente alinhados, 0 indica que são ortogonais (não relacionados), e -1 indica direções opostas. A magnitude dos vetores não afeta essa medida de similaridade.

Figuras

Nesta seção, apresentamos figuras ilustrativas de conceitos importantes em Ciência de Dados.

Figura 3: Exemplo de Matriz de Correlação

Figura 3: Matriz de Correlação
Figura 3: Matriz de Correlação

Fonte: Medium (Exemplo de Matriz de Correlação)

Figura 4: Arquitetura de um Perceptron de Múltiplas Camadas (MLP)

Figura 4: Arquitetura MLP
Figura 4: Arquitetura MLP

Fonte: Medium (Arquitetura de Perceptron de Múltiplas Camadas)

Referências Bibliográficas

Curty & Cervantes (2016) Rautenberg & Carmo (2019) Vasconcelos & Barão (2017) Soares (2020) Saldanha et al. (2021)

Curty, R. G., & Cervantes, B. M. N. (2016). Data science: Ciência orientada a dados. Informação & Informação, 21(2), 1–4.
Rautenberg, S., & Carmo, P. R. V. do. (2019). Big data e ciência de dados: Complementariedade conceitual no processo de tomada de decisão. Brazilian Journal of Information Science, 13(1), 56–67.
Saldanha, R. de F., Barcellos, C., & Pedroso, M. de M. (2021). Ciência de dados e big data: O que isso significa para estudos populacionais e da saúde? Cadernos Saúde Coletiva, 29(spe), 51–58.
Soares, G. F. (2020). Ciência de dados aplicada à auditoria interna. Revista Da CGU, 12(22), 196–208.
Vasconcelos, J. B., & Barão, A. (2017). Ciência dos dados nas organizações. FCA.