Exercício 11

Itens da Atividade

Carregamento, Manipulação e Visualização de Dataset

Nesta seção, os dados escolhidos são carregados, inspecionados, manipulados e exibidos.

Carregamento das bibliotecas necessárias para manipular e exibir os dados

library(dplyr)
library(DT)

Carregar os Dados

# O dataset iris será usado pra essa parte da atividade
data("iris")

Verificar a estrutura original dos dados

str(iris)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

Dataset usado

dados <- iris

Manipulação dos Dados

As etapas de manipulação dos dados incluem:
1. Filtrar para manter apenas as espécies ‘setosa’ e ‘versicolor’
1. Criar a nova coluna ‘Area.Petala’ pra representar a área da pétala (Petal.Length * Petal.Width)
1. Ordenar o resultado em ordem decrescente pelo atrubuto ‘Area.Petala’

dados_manipulados <- dados %>%
  filter(Species %in% c("setosa", "versicolor")) %>%
  mutate(Area.Petala = Petal.Length * Petal.Width) %>%
  arrange(desc(Area.Petala)) %>%
  droplevels() # Remove níveis não utilizados dos fatores

Verifica a estrutura dos novos dados

str(dados_manipulados)

## 'data.frame':    100 obs. of  6 variables:
##  $ Sepal.Length: num  5.9 6.7 6 6.3 6.9 6.3 6 6.7 6.5 6.4 ...
##  $ Sepal.Width : num  3.2 3 2.7 3.3 3.1 2.5 3.4 3.1 2.8 3.2 ...
##  $ Petal.Length: num  4.8 5 5.1 4.7 4.9 4.9 4.5 4.7 4.6 4.5 ...
##  $ Petal.Width : num  1.8 1.7 1.6 1.6 1.5 1.5 1.6 1.5 1.5 1.5 ...
##  $ Species     : Factor w/ 2 levels "setosa","versicolor": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Area.Petala : num  8.64 8.5 8.16 7.52 7.35 7.35 7.2 7.05 6.9 6.75 ...

Tabela Interativa

Exibe o data frame resultante em uma tabela interativa.
As plantas estão ordenadas pela área da pétala em ordem decrescente.

datatable(dados_manipulados, options = list(pageLength = 5))

Equações LaTeX

Teorema de Bayes

\[ P(A|B) = \frac{P(B|A) , P(A)}{P(B)} \] Significado: Esta é a fórmula do Teorema de Bayes, que descreve a probabilidade de um evento (\(A\)) ocorrer, com base no conhecimento prévio de condições que podem estar relacionadas a esse evento (\(B\)). É a base da inferência Bayesiana.

Função de Ativação Sigmoide

\[ \sigma(z) = \frac{1}{1 + e^{-z}} \] Significado: A função Sigmoide é usada em Regressão Logística e como função de ativação em redes neurais. Ela mapeia qualquer valor de entrada \(z\) para um valor de saída entre 0 e 1, o que é útil para representar probabilidades.

Entropia de Shannon

\[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_{b}(P(x_i)) \] Significado: A Entropia de Shannon mede a quantidade de incerteza ou “surpresa” em uma variável aleatória \(X\). É um conceito central em Teoria da Informação e é usado em árvores de decisão (como o ganho de informação) para encontrar os melhores “cortes” nos dados.

Fórmula da Regressão Linear Múltipla

\[ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i \] Significado: Esta equação descreve um modelo de Regressão Linear Múltipla. Ela modela a relação entre uma variável dependente (\(y_i\)) e múltiplas variáveis independentes (\(x_{i1}, \dots, x_{ip}\)). Os coeficientes (\(\beta\)) representam o impacto de cada variável \(x\) em \(y\), e \(\epsilon_i\) é o termo de erro.

Distância Euclidiana

\[ d(p, q) = \sqrt{\sum_{i=1}^{n} (q_i - p_i)^2} \] Significado: Esta é a fórmula da Distância Euclidiana entre dois pontos (\(p\) e \(q\)) em um espaço n-dimensional. É a medida de distância “comum” (a linha reta entre dois pontos) e é fundamental para muitos algoritmos de machine learning, como K-Nearest Neighbors (KNN) e K-Means clustering.

Figuras

Figura 1

O Processo de Ciência de Dados Esta figura ilustra o processo de Ciência de Dados, que inclui etapas como coleta de dados, limpeza, análise exploratória, modelagem e comunicação dos resultados. Cada etapa é crucial para transformar dados brutos em informações importantes.

Figura 2

Arquitetura de uma Rede Neural Esta figura mostra a arquitetura básica de uma rede neural artificial, composta por camadas de neurônios (entrada, ocultas e saída). As conexões entre os neurônios representam os pesos que são ajustados durante o treinamento para minimizar o erro na previsão.

Referências

Wickham, Grolemund, et al. (2017)
Xie, Allaire, and Grolemund (2018)
James et al. (2013)
Ke et al. (2017)
Xie, Cheng, and Tan (2018)

James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2013. An Introduction to Statistical Learning: With Applications in r. Vol. 103. Springer.

Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. 2017. “Lightgbm: A Highly Efficient Gradient Boosting Decision Tree.” Advances in Neural Information Processing Systems 30.

Wickham, Hadley, Garrett Grolemund, et al. 2017. R for Data Science. Vol. 2. O’Reilly Sebastopol.

Xie, Yihui, Joseph J Allaire, and Garrett Grolemund. 2018. R Markdown: The Definitive Guide. Chapman; Hall/CRC.

Xie, Yihui, Joe Cheng, and Xianying Tan. 2018. “DT: A Wrapper of the JavaScript Library ’DataTables’.” The R Journal 10 (1): 319–30. https://doi.org/10.32614/RJ-2018-046.

Exercício 11 - CPAD

Lucas Xavier de Almeida

02/11/2025