Itens da Atividade

Carregamento, Manipulação e Visualização de Dataset

  • Nesta seção, os dados escolhidos são carregados, inspecionados, manipulados e exibidos.

Carregamento das bibliotecas necessárias para manipular e exibir os dados

library(dplyr)
library(DT)


Carregar os Dados

# O dataset iris será usado pra essa parte da atividade
data("iris")


Verificar a estrutura original dos dados

str(iris) 
## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


Dataset usado

dados <- iris


Manipulação dos Dados

  • As etapas de manipulação dos dados incluem:
    1. Filtrar para manter apenas as espécies ‘setosa’ e ‘versicolor’
    1. Criar a nova coluna ‘Area.Petala’ pra representar a área da pétala (Petal.Length * Petal.Width)
    1. Ordenar o resultado em ordem decrescente pelo atrubuto ‘Area.Petala’
dados_manipulados <- dados %>%
  filter(Species %in% c("setosa", "versicolor")) %>%
  mutate(Area.Petala = Petal.Length * Petal.Width) %>%
  arrange(desc(Area.Petala)) %>%
  droplevels() # Remove níveis não utilizados dos fatores


Verifica a estrutura dos novos dados

str(dados_manipulados)
## 'data.frame':    100 obs. of  6 variables:
##  $ Sepal.Length: num  5.9 6.7 6 6.3 6.9 6.3 6 6.7 6.5 6.4 ...
##  $ Sepal.Width : num  3.2 3 2.7 3.3 3.1 2.5 3.4 3.1 2.8 3.2 ...
##  $ Petal.Length: num  4.8 5 5.1 4.7 4.9 4.9 4.5 4.7 4.6 4.5 ...
##  $ Petal.Width : num  1.8 1.7 1.6 1.6 1.5 1.5 1.6 1.5 1.5 1.5 ...
##  $ Species     : Factor w/ 2 levels "setosa","versicolor": 2 2 2 2 2 2 2 2 2 2 ...
##  $ Area.Petala : num  8.64 8.5 8.16 7.52 7.35 7.35 7.2 7.05 6.9 6.75 ...


Tabela Interativa

  • Exibe o data frame resultante em uma tabela interativa.
  • As plantas estão ordenadas pela área da pétala em ordem decrescente.
datatable(dados_manipulados, options = list(pageLength = 5))

Equações LaTeX

Teorema de Bayes

\[ P(A|B) = \frac{P(B|A) , P(A)}{P(B)} \] Significado: Esta é a fórmula do Teorema de Bayes, que descreve a probabilidade de um evento (\(A\)) ocorrer, com base no conhecimento prévio de condições que podem estar relacionadas a esse evento (\(B\)). É a base da inferência Bayesiana.


Função de Ativação Sigmoide

\[ \sigma(z) = \frac{1}{1 + e^{-z}} \] Significado: A função Sigmoide é usada em Regressão Logística e como função de ativação em redes neurais. Ela mapeia qualquer valor de entrada \(z\) para um valor de saída entre 0 e 1, o que é útil para representar probabilidades.


Entropia de Shannon

\[ H(X) = - \sum_{i=1}^{n} P(x_i) \log_{b}(P(x_i)) \] Significado: A Entropia de Shannon mede a quantidade de incerteza ou “surpresa” em uma variável aleatória \(X\). É um conceito central em Teoria da Informação e é usado em árvores de decisão (como o ganho de informação) para encontrar os melhores “cortes” nos dados.


Fórmula da Regressão Linear Múltipla

\[ y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i \] Significado: Esta equação descreve um modelo de Regressão Linear Múltipla. Ela modela a relação entre uma variável dependente (\(y_i\)) e múltiplas variáveis independentes (\(x_{i1}, \dots, x_{ip}\)). Os coeficientes (\(\beta\)) representam o impacto de cada variável \(x\) em \(y\), e \(\epsilon_i\) é o termo de erro.


Distância Euclidiana

\[ d(p, q) = \sqrt{\sum_{i=1}^{n} (q_i - p_i)^2} \] Significado: Esta é a fórmula da Distância Euclidiana entre dois pontos (\(p\) e \(q\)) em um espaço n-dimensional. É a medida de distância “comum” (a linha reta entre dois pontos) e é fundamental para muitos algoritmos de machine learning, como K-Nearest Neighbors (KNN) e K-Means clustering.

Figuras

Figura 1

O Processo de Ciência de Dados Esta figura ilustra o processo de Ciência de Dados, que inclui etapas como coleta de dados, limpeza, análise exploratória, modelagem e comunicação dos resultados. Cada etapa é crucial para transformar dados brutos em informações importantes.


Figura 2

Arquitetura de uma Rede Neural Esta figura mostra a arquitetura básica de uma rede neural artificial, composta por camadas de neurônios (entrada, ocultas e saída). As conexões entre os neurônios representam os pesos que são ajustados durante o treinamento para minimizar o erro na previsão.

Referências

  • Wickham, Grolemund, et al. (2017)
  • Xie, Allaire, and Grolemund (2018)
  • James et al. (2013)
  • Ke et al. (2017)
  • Xie, Cheng, and Tan (2018)
James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2013. An Introduction to Statistical Learning: With Applications in r. Vol. 103. Springer.
Ke, Guolin, Qi Meng, Thomas Finley, Taifeng Wang, Wei Chen, Weidong Ma, Qiwei Ye, and Tie-Yan Liu. 2017. “Lightgbm: A Highly Efficient Gradient Boosting Decision Tree.” Advances in Neural Information Processing Systems 30.
Wickham, Hadley, Garrett Grolemund, et al. 2017. R for Data Science. Vol. 2. O’Reilly Sebastopol.
Xie, Yihui, Joseph J Allaire, and Garrett Grolemund. 2018. R Markdown: The Definitive Guide. Chapman; Hall/CRC.
Xie, Yihui, Joe Cheng, and Xianying Tan. 2018. “DT: A Wrapper of the JavaScript Library ’DataTables’.” The R Journal 10 (1): 319–30. https://doi.org/10.32614/RJ-2018-046.