Introdução

Nesta atividade iremos utilizar o conjunto de dados airquality, que contém informações sobre a qualidade do ar em Nova York, medidas em 1973. Na hora de realizar a manipulação dos dados, iremos fazer o uso com o pacote dplyr.

Iremos dividir essa atividade em Manipulação dos dados, Tabela interativa, Equações matemáticas, Figuras relacionadas à Ciências de Dados e Referências bibliográficas.

1) Manipulação dos dados

Nesta seção, nós faremos a utilização de algumas funções como arrange, filter, mutate, e select do pacote dplyr.

Manipulação de Dados: airquality

Primeiro, devemos fazer o carregamento dos pacotes necessários e o conjunto de dados airquality.

library(dplyr)
## 
## Anexando pacote: 'dplyr'
## Os seguintes objetos são mascarados por 'package:stats':
## 
##     filter, lag
## Os seguintes objetos são mascarados por 'package:base':
## 
##     intersect, setdiff, setequal, union
# Carregar conjunto de dados
data("airquality")
head(airquality)
##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6
# Podemos por exemplo fazer uma **Ordenação dos dados**.
# Vamos ordenar os dados pela coluna `Ozone` em ordem decrescente.

# Ordenar pela concentração de Ozônio:

airquality_sorted <- airquality %>% arrange(desc(Ozone))
head(airquality_sorted)
##   Ozone Solar.R Wind Temp Month Day
## 1   168     238  3.4   81     8  25
## 2   135     269  4.1   84     7   1
## 3   122     255  4.0   89     8   7
## 4   118     225  2.3   94     8  29
## 5   115     223  5.7   79     5  30
## 6   110     207  8.0   90     8   9

Então dessa menira conseguimos observar por exemplo, os dias com maior concentração de Ozônio.

2) Tabela interativa

A tabela interativa será gerada com o pacote DT. Então dessa forma conseguiremos ter funcionalidades como ordenação, busca e paginação.

## Tabela Interativa

3) Equações matemáticas

Abaixo iremos encontrar algumas Equações matemáticas, equações essas, que tem significados e funções específicas.

## Equações Matemáticas
  1. Cálculo da Média: \[ \bar{x} = \frac{\sum_{i=1}^n x_i}{n} \] Significado: Média aritmética de \(n\) observações \(x_i\).

  2. Cálculo da Correlação \[ r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^n (x_i - \bar{x})^2 \sum_{i=1}^n (y_i - \bar{y})^2}} \] Significado: Mede a força e a direção da relação linear entre duas variáveis.

  3. Cálculo da Variância \[ \sigma^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n} \] Significado: Mede a dispersão dos dados em relação à média.

  4. Equação de uma Reta \[ y = mx + b \] Significado: Representa a relação linear entre duas variáveis \(x\) e \(y\), onde \(m\) é a inclinação e \(b\) o intercepto.

  5. Função da Distribuição normal \[ f(x) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \] Significado: A densidade de probabilidade da distribuição normal.

4) Figuras relacionadas à Ciências de Dados

Abaixo podemos encontrar dois exemplos de visualizações relevantes para Ciência de dados.

# Relação entre Ozônio e Temperatura (Gráfico de Dispersão)
# Distibuição das temperaturas (Histograma)

5) Refêrencias bibliográficas

Chambers et al. (1983) Team (2023) Wickham (2016) Cleveland (1993) Xie (2015)

Referencia

Chambers, John M, William S Cleveland, Beat Kleiner, and Paul A Tukey. 1983. Graphical Methods for Data Analysis. Wadsworth International Group.
Cleveland, William S. 1993. Visualizing Data. Hobart Press.
Team, R Core. 2023. R: A Language and Environment for Statistical Computing. Vienna, Austria: R Foundation for Statistical Computing. https://www.r-project.org/.
Wickham, Hadley. 2016. Ggplot2: Elegant Graphics for Data Analysis. Springer. https://ggplot2.tidyverse.org/.
Xie, Yihui. 2015. Dynamic Documents with r and Knitr. Chapman; Hall/CRC. https://yihui.org/knitr/.