Navegue pelas abas abaixo para visualizar cada etapa da atividade.
Nesta seção, utilizamos o famoso conjunto de dados iris,
nativo do R. O objetivo foi realizar manipulações simples utilizando o
pacote dplyr.
Passos realizados:
Area.Sepala, multiplicando o comprimento
(Sepal.Length) pela largura
(Sepal.Width).library(dplyr)
# Carregando os dados
dados <- iris
# Manipulação
dados_manipulados <- dados %>%
filter(Species == "versicolor") %>%
mutate(Area.Sepala = Sepal.Length * Sepal.Width) %>%
arrange(desc(Area.Sepala))
# Mostrando as primeiras linhas no console
head(dados_manipulados)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area.Sepala
## 1 7.0 3.2 4.7 1.4 versicolor 22.40
## 2 6.9 3.1 4.9 1.5 versicolor 21.39
## 3 6.3 3.3 4.7 1.6 versicolor 20.79
## 4 6.7 3.1 4.4 1.4 versicolor 20.77
## 5 6.7 3.1 4.7 1.5 versicolor 20.77
## 6 6.4 3.2 4.5 1.5 versicolor 20.48
Aqui apresentamos os dados manipulados (apenas a espécie
versicolor com a área da sépala calculada) em uma tabela
interativa usando o pacote DT. Você pode usar a caixa de
busca, ordenar as colunas clicando nos cabeçalhos e paginar os
resultados.
library(DT)
# Criando a tabela interativa
datatable(dados_manipulados,
options = list(pageLength = 5,
language = list(url = '//cdn.datatables.net/plug-ins/1.10.11/i18n/Portuguese-Brasil.json')),
caption = "Tabela 1: Dados das flores Iris Versicolor ordenadas por Área da Sépala")
Aqui estão cinco equações fundamentais em Ciência de Dados, formatadas em LaTeX:
1. Distribuição Normal: A função de densidade de probabilidade, fundamental para estatística inferencial. \[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]
2. Teorema de Bayes: Base da probabilidade condicional e de algoritmos como o Naive Bayes. \[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\]
3. Regressão Linear Múltipla: Equação que modela a relação entre uma variável dependente e várias independentes. \[Y=\beta_0+\beta_1X_1+\beta_2X_2+\dots+\beta_nX_n+\epsilon\]
4. Função Sigmoide (Logística): Usada na regressão logística para mapear previsões em probabilidades entre 0 e 1. \[\sigma(z)=\frac{1}{1+e^{-z}}\]
5. Erro Quadrático Médio (MSE): Métrica de avaliação amplamente utilizada para medir a performance de modelos de regressão. \[MSE=\frac{1}{n}\sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2\]
Abaixo temos duas imagens ilustrativas relacionadas ao universo de Ciência de Dados e Machine Learning.
Figura 1: Representação de Análise de Dados
Figura 2: Código e Programação