Atividade destinada a cadeira de Computação para Análise de dados e com o objetivo de utilizar a biblioteca nativa Iris a fim de manipular, limpar, e apresentar seus dados de forma coerente. Além disso, a criação de uma tabela dinâmica com a biblioteca DT a fim de apresentar os dados. Em seguida, há formulas matemáticas e imagens relacionado a Ciência de dados, por fim, as referências.

Seções

Limpeza e Manipulação de dados

Importação das bibliotecas

library(dplyr)
library(ggplot2)
library(DT)

Carregamento dos dados

data("iris")
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

Ordenação dos dados pelo comprimento da pétala

Os dados foram ordenados pela coluna Sepal.Length em ordem decrescente, mostrando as flores com as sépalas mais longas no topo.

iris_ordenado <- iris[order(-iris$Sepal.Length), ]
head(iris_ordenado)
##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
## 132          7.9         3.8          6.4         2.0 virginica
## 118          7.7         3.8          6.7         2.2 virginica
## 119          7.7         2.6          6.9         2.3 virginica
## 123          7.7         2.8          6.7         2.0 virginica
## 136          7.7         3.0          6.1         2.3 virginica
## 106          7.6         3.0          6.6         2.1 virginica

Filtragem dos dados pela espécie setosa

Foram filtradas apenas as flores da espécie “setosa”, resultando em um subconjunto de dados menores.

iris_filtrado <- subset(iris_ordenado, Species == "setosa")
head(iris_filtrado)
##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 15          5.8         4.0          1.2         0.2  setosa
## 16          5.7         4.4          1.5         0.4  setosa
## 19          5.7         3.8          1.7         0.3  setosa
## 34          5.5         4.2          1.4         0.2  setosa
## 37          5.5         3.5          1.3         0.2  setosa
## 6           5.4         3.9          1.7         0.4  setosa

Criação de variável

A nova variável Sepal.Area foi criada para fornecer uma medida da área da sépala, que pode ser útil para análises posteriores.

iris_filtrado$Sepal.Area <- iris_filtrado$Sepal.Length * iris_filtrado$Sepal.Width
head(iris_filtrado)
##    Sepal.Length Sepal.Width Petal.Length Petal.Width Species Sepal.Area
## 15          5.8         4.0          1.2         0.2  setosa      23.20
## 16          5.7         4.4          1.5         0.4  setosa      25.08
## 19          5.7         3.8          1.7         0.3  setosa      21.66
## 34          5.5         4.2          1.4         0.2  setosa      23.10
## 37          5.5         3.5          1.3         0.2  setosa      19.25
## 6           5.4         3.9          1.7         0.4  setosa      21.06

Tabela Interativa com DT

library(DT)
datatable(iris_filtrado, options = list(pageLength = 10, scrollX = TRUE))

Equações Complexas em LaTeX

  1. Equação de Schrödinger: \[ i\hbar \frac{\partial}{\partial t} \Psi(\mathbf{r}, t) = \hat{H} \Psi(\mathbf{r}, t) \] Significado: Descreve a evolução temporal de um sistema quântico.

  2. Teorema de Bayes: \[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \] Significado: Descreve a probabilidade de um evento \(A\) dado que \(B\) ocorreu.

  3. Equação de Black-Scholes: \[ \frac{\partial V}{\partial t} + \frac{1}{2} \sigma^2 S^2 \frac{\partial^2 V}{\partial S^2} + rS \frac{\partial V}{\partial S} - rV = 0 \] Significado: Usada para precificar opções financeiras.

  4. Transformada de Fourier: \[ \hat{f}(\xi) = \int_{-\infty}^{\infty} f(x) e^{-2\pi i x \xi} \, dx \] Significado: Transforma uma função do domínio do tempo para o domínio da frequência.

  5. Equação de Einstein para a Relatividade Geral: \[ G_{\mu\nu} + \Lambda g_{\mu\nu} = \frac{8\pi G}{c^4} T_{\mu\nu} \] Significado: Descreve a interação da matéria com a curvatura do espaço-tempo.

Figuras associadas a Ciência de Dados

Ciclo de Vida da Ciência de Dados

Mostra as etapas de um projeto de ciência de dados, desde a definição do problema até a implantação e monitoramento. Figura 1: Ciclo de Vida da Ciência de Dados

Matriz de Confusão

Ilustra como avaliar o desempenho de modelos de classificação, destacando verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos. Figura 2: Matriz de Confusão

Referências

He et al. (2016)

Vaswani et al. (2017)

Kingma and Ba (2014)

LeCun et al. (1998)

Mikolov et al. (2013)

He, Kaiming, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. “Deep Residual Learning for Image Recognition.” Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 770–78.
Kingma, Diederik P., and Jimmy Ba. 2014. “Adam: A Method for Stochastic Optimization.” arXiv Preprint arXiv:1412.6980.
LeCun, Yann, Léon Bottou, Yoshua Bengio, and Patrick Haffner. 1998. “Gradient-Based Learning Applied to Document Recognition.” Proceedings of the IEEE 86 (11): 2278–2324.
Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Efficient Estimation of Word Representations in Vector Space.” arXiv Preprint arXiv:1301.3781.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” Advances in Neural Information Processing Systems, 5998–6008.