Nesta atividade iremos utilizar o conjunto de dados
airquality, que contém informações sobre a qualidade do ar
em Nova York, medidas em 1973. Na hora de realizar a manipulação dos
dados, iremos fazer o uso com o pacote dplyr.
Iremos dividir essa atividade em Manipulação dos dados, Tabela interativa, Equações matemáticas, Figuras relacionadas à Ciências de Dados e Referências bibliográficas.
Nesta seção, nós faremos a utilização de algumas funções como
arrange, filter, mutate, e
select do pacote dplyr.
Manipulação de Dados: airquality
Primeiro, devemos fazer o carregamento dos pacotes necessários e o
conjunto de dados airquality.
library(dplyr)
##
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
##
## filter, lag
## Os seguintes objetos são mascarados por 'package:base':
##
## intersect, setdiff, setequal, union
# Carregar conjunto de dados
data("airquality")
head(airquality)
## Ozone Solar.R Wind Temp Month Day
## 1 41 190 7.4 67 5 1
## 2 36 118 8.0 72 5 2
## 3 12 149 12.6 74 5 3
## 4 18 313 11.5 62 5 4
## 5 NA NA 14.3 56 5 5
## 6 28 NA 14.9 66 5 6
# Podemos por exemplo fazer uma **Ordenação dos dados**.
# Vamos ordenar os dados pela coluna `Ozone` em ordem decrescente.
# Ordenar pela concentração de Ozônio:
airquality_sorted <- airquality %>% arrange(desc(Ozone))
head(airquality_sorted)
## Ozone Solar.R Wind Temp Month Day
## 1 168 238 3.4 81 8 25
## 2 135 269 4.1 84 7 1
## 3 122 255 4.0 89 8 7
## 4 118 225 2.3 94 8 29
## 5 115 223 5.7 79 5 30
## 6 110 207 8.0 90 8 9
Então dessa menira conseguimos observar por exemplo, os dias com maior concentração de Ozônio.
A tabela interativa será gerada com o pacote DT. Então
dessa forma conseguiremos ter funcionalidades como
ordenação, busca e
paginação.
## Tabela Interativa
Abaixo iremos encontrar algumas Equações matemáticas,
equações essas, que tem significados e funções específicas.
## Equações Matemáticas
Cálculo da Média: \[ \bar{x} = \frac{\sum_{i=1}^n x_i}{n} \] Significado: Média aritmética de \(n\) observações \(x_i\).
Cálculo da Correlação \[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}} \] Significado: Mede a força e a direção da relação linear entre duas variáveis.
Cálculo da Variância \[ \sigma^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n} \] Significado: Mede a dispersão dos dados em relação à média.
Equação de uma Reta \[ y = mx + b \] Significado: Representa a relação linear entre duas variáveis \(x\) e \(y\), onde \(m\) é a inclinação e \(b\) o intercepto.
Função da Distribuição normal \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \] Significado: A densidade de probabilidade da distribuição normal.
Abaixo podemos encontrar dois exemplos de visualizações relevantes
para Ciência de dados.
# Relação entre Ozônio e Temperatura (Gráfico de Dispersão)
# Distibuição das temperaturas (Histograma)
Chambers et al. (1983) Team (2023) Wickham (2016) Cleveland (1993) Xie (2015)