library(dplyr)
library(DT)
# O dataset iris será usado pra essa parte da atividade
data("iris")
str(iris)
## 'data.frame': 150 obs. of 5 variables:
## $ Sepal.Length: num 5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
## $ Sepal.Width : num 3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
## $ Petal.Length: num 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
## $ Petal.Width : num 0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
## $ Species : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...
dados <- iris
dados_manipulados <- dados %>%
filter(Species %in% c("setosa", "versicolor")) %>%
mutate(Area.Petala = Petal.Length * Petal.Width) %>%
arrange(desc(Area.Petala)) %>%
droplevels() # Remove níveis não utilizados dos fatores
str(dados_manipulados)
## 'data.frame': 100 obs. of 6 variables:
## $ Sepal.Length: num 5.9 6.7 6 6.3 6.9 6.3 6 6.7 6.5 6.4 ...
## $ Sepal.Width : num 3.2 3 2.7 3.3 3.1 2.5 3.4 3.1 2.8 3.2 ...
## $ Petal.Length: num 4.8 5 5.1 4.7 4.9 4.9 4.5 4.7 4.6 4.5 ...
## $ Petal.Width : num 1.8 1.7 1.6 1.6 1.5 1.5 1.6 1.5 1.5 1.5 ...
## $ Species : Factor w/ 2 levels "setosa","versicolor": 2 2 2 2 2 2 2 2 2 2 ...
## $ Area.Petala : num 8.64 8.5 8.16 7.52 7.35 7.35 7.2 7.05 6.9 6.75 ...
datatable(dados_manipulados, options = list(pageLength = 5))
\[ P(A|B) = \frac{P(B|A) , P(A)}{P(B)}
\] Significado: Esta é a fórmula do Teorema de
Bayes, que descreve a probabilidade de um evento (\(A\)) ocorrer, com base no conhecimento
prévio de condições que podem estar relacionadas a esse evento (\(B\)). É a base da inferência Bayesiana.
\[ \sigma(z) = \frac{1}{1 + e^{-z}}
\] Significado: A função Sigmoide é usada em
Regressão Logística e como função de ativação em redes neurais. Ela
mapeia qualquer valor de entrada \(z\)
para um valor de saída entre 0 e 1, o que é útil para representar
probabilidades.
\[ H(X) = - \sum_{i=1}^{n} P(x_i)
\log_{b}(P(x_i)) \] Significado: A Entropia de
Shannon mede a quantidade de incerteza ou “surpresa” em uma variável
aleatória \(X\). É um conceito central
em Teoria da Informação e é usado em árvores de decisão (como o ganho de
informação) para encontrar os melhores “cortes” nos dados.
\[ y_i = \beta_0 + \beta_1 x_{i1} +
\beta_2 x_{i2} + \dots + \beta_p x_{ip} + \epsilon_i \]
Significado: Esta equação descreve um modelo de
Regressão Linear Múltipla. Ela modela a relação entre uma variável
dependente (\(y_i\)) e múltiplas
variáveis independentes (\(x_{i1}, \dots,
x_{ip}\)). Os coeficientes (\(\beta\)) representam o impacto de cada
variável \(x\) em \(y\), e \(\epsilon_i\) é o termo de erro.
\[ d(p, q) = \sqrt{\sum_{i=1}^{n} (q_i - p_i)^2} \] Significado: Esta é a fórmula da Distância Euclidiana entre dois pontos (\(p\) e \(q\)) em um espaço n-dimensional. É a medida de distância “comum” (a linha reta entre dois pontos) e é fundamental para muitos algoritmos de machine learning, como K-Nearest Neighbors (KNN) e K-Means clustering.
Esta figura ilustra o processo
de Ciência de Dados, que inclui etapas como coleta de dados, limpeza,
análise exploratória, modelagem e comunicação dos resultados. Cada etapa
é crucial para transformar dados brutos em informações importantes.
Esta figura mostra a arquitetura
básica de uma rede neural artificial, composta por camadas de neurônios
(entrada, ocultas e saída). As conexões entre os neurônios representam
os pesos que são ajustados durante o treinamento para minimizar o erro
na previsão.