Meu Relatório

Navegue pelas abas abaixo para visualizar cada etapa da atividade.

1. Manipulação de Dados

Nesta seção, utilizamos o famoso conjunto de dados iris, nativo do R. O objetivo foi realizar manipulações simples utilizando o pacote dplyr.

Passos realizados:

  1. Filtragem: Selecionamos apenas as flores da espécie versicolor.
  2. Criação de Variável: Criamos uma nova coluna chamada Area.Sepala, multiplicando o comprimento (Sepal.Length) pela largura (Sepal.Width).
  3. Ordenação: Ordenamos os dados de forma decrescente com base na nova variável de área.
library(dplyr)

# Carregando os dados
dados <- iris

# Manipulação
dados_manipulados <- dados %>%
  filter(Species == "versicolor") %>%
  mutate(Area.Sepala = Sepal.Length * Sepal.Width) %>%
  arrange(desc(Area.Sepala))

# Mostrando as primeiras linhas no console
head(dados_manipulados)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width    Species Area.Sepala
## 1          7.0         3.2          4.7         1.4 versicolor       22.40
## 2          6.9         3.1          4.9         1.5 versicolor       21.39
## 3          6.3         3.3          4.7         1.6 versicolor       20.79
## 4          6.7         3.1          4.4         1.4 versicolor       20.77
## 5          6.7         3.1          4.7         1.5 versicolor       20.77
## 6          6.4         3.2          4.5         1.5 versicolor       20.48

2. Tabela Interativa

Aqui apresentamos os dados manipulados (apenas a espécie versicolor com a área da sépala calculada) em uma tabela interativa usando o pacote DT. Você pode usar a caixa de busca, ordenar as colunas clicando nos cabeçalhos e paginar os resultados.

library(DT)

# Criando a tabela interativa
datatable(dados_manipulados, 
          options = list(pageLength = 5, 
                         language = list(url = '//cdn.datatables.net/plug-ins/1.10.11/i18n/Portuguese-Brasil.json')),
          caption = "Tabela 1: Dados das flores Iris Versicolor ordenadas por Área da Sépala")

3. Equações Complexas

Aqui estão cinco equações fundamentais em Ciência de Dados, formatadas em LaTeX:

1. Distribuição Normal: A função de densidade de probabilidade, fundamental para estatística inferencial. \[f(x)=\frac{1}{\sigma\sqrt{2\pi}}e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}\]

2. Teorema de Bayes: Base da probabilidade condicional e de algoritmos como o Naive Bayes. \[P(A|B)=\frac{P(B|A)P(A)}{P(B)}\]

3. Regressão Linear Múltipla: Equação que modela a relação entre uma variável dependente e várias independentes. \[Y=\beta_0+\beta_1X_1+\beta_2X_2+\dots+\beta_nX_n+\epsilon\]

4. Função Sigmoide (Logística): Usada na regressão logística para mapear previsões em probabilidades entre 0 e 1. \[\sigma(z)=\frac{1}{1+e^{-z}}\]

5. Erro Quadrático Médio (MSE): Métrica de avaliação amplamente utilizada para medir a performance de modelos de regressão. \[MSE=\frac{1}{n}\sum_{i=1}^{n}(Y_i-\hat{Y}_i)^2\]

4. Figuras

Abaixo temos duas imagens ilustrativas relacionadas ao universo de Ciência de Dados e Machine Learning.

Figura 1: Representação de Análise de Dados

Gráficos e Análise de Dados
Gráficos e Análise de Dados

Figura 2: Código e Programação

Código em tela
Código em tela

5. Referências Bibliográficas

  1. WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. 1. ed. O’Reilly Media, 2017.
  2. XIE, Yihui; ALLAIRE, J. J.; GROLEMUND, Garrett. R Markdown: The Definitive Guide. Chapman and Hall/CRC, 2018.
  3. JAMES, Gareth et al. An Introduction to Statistical Learning: with Applications in R. Springer, 2013.
  4. PENG, Roger D. R Programming for Data Science. Leanpub, 2012.
  5. KABACOFF, Robert I. R in Action: Data Analysis and Graphics with R. 2. ed. Manning Publications, 2015.