Exercício 11 CPAD

Alexander Fábio da Silva

2025-11-02

Navegação

Tópico 1: Carregando e manipulando um dataset simples

Utilizarei o dataset AirQuality para fazer algumas manipulações. Primeiro é necessário carregar o dataset.

# Carregando o dataset
data("airquality")

# Imprimindo o cabeçalho
head(airquality)
##   Ozone Solar.R Wind Temp Month Day
## 1    41     190  7.4   67     5   1
## 2    36     118  8.0   72     5   2
## 3    12     149 12.6   74     5   3
## 4    18     313 11.5   62     5   4
## 5    NA      NA 14.3   56     5   5
## 6    28      NA 14.9   66     5   6


Ordenando o dataset pelo Wind. Vou obter os dias mais ventosos

# Carregando a library "dplyr"
library(dplyr)

# Ordenando os dados pelo Wind
airquality %>%
  arrange(desc(Wind)) %>%
  head()
##   Ozone Solar.R Wind Temp Month Day
## 1    37     284 20.7   72     6  17
## 2     8      19 20.1   61     5   9
## 3     6      78 18.4   57     5  18
## 4    11     320 16.6   73     5  22
## 5    NA      66 16.6   57     5  25
## 6    14      20 16.6   63     9  25


Filtrando o dataset. Vou obter apenas os dias cuja temperatura estava acima de 90 fahrenheit.

# Filtrando o dataset para Temp > 90
airquality %>%
  filter(Temp > 90)
##    Ozone Solar.R Wind Temp Month Day
## 1     NA     259 10.9   93     6  11
## 2     NA     250  9.2   92     6  12
## 3     97     267  6.3   92     7   8
## 4     97     272  5.7   92     7   9
## 5     NA     291 14.9   91     7  14
## 6     NA     222  8.6   92     8  10
## 7     76     203  9.7   97     8  28
## 8    118     225  2.3   94     8  29
## 9     84     237  6.3   96     8  30
## 10    85     188  6.3   94     8  31
## 11    96     167  6.9   91     9   1
## 12    78     197  5.1   92     9   2
## 13    73     183  2.8   93     9   3
## 14    91     189  4.6   93     9   4


Criando uma nova variável. Vou criar uma nova variável que converta os valores de temperatura em fahrenheit para celsius.

# Criando uma nova coluna com temperatura em celsius
airquality %>%
  mutate(Temp_Celsius = (Temp-32) * 5/9) %>%
  select(Temp, Temp_Celsius, everything()) %>%
  head()
##   Temp Temp_Celsius Ozone Solar.R Wind Month Day
## 1   67     19.44444    41     190  7.4     5   1
## 2   72     22.22222    36     118  8.0     5   2
## 3   74     23.33333    12     149 12.6     5   3
## 4   62     16.66667    18     313 11.5     5   4
## 5   56     13.33333    NA      NA 14.3     5   5
## 6   66     18.88889    28      NA 14.9     5   6


Tópico 2: Utilizar o pacote DT para criar uma tabela interativa

Irei criar uma tabela interativa para o dataset AirQuality. É possível ordernar os dados, buscar nos dados e navegar nos dados via páginas.

# Carregando o pacote DT
library(DT)

# Criando a tabela
datatable(
  airquality,
  options = list(
    pageLength = 10,
    lenghtMenu = list(c(5, 10, 15))
  ),
  caption = "Tabela Interativa: Qualidade do ar em Nova York (1973)"
)


Tópico 3: Equações complexas utilizando a sintaxe do LaTeX

Fórmula: Teorema de Bayes (Forma Geral)

Significado: Descreve como a probabilidade de uma hipótese ser verdadeira é atualizada quando se observa novas evidências ou dados.


\[ P(H_i | D) = \frac{P(D | H_i) \, P(H_i)}{\sum_{j=1}^{n} P(D | H_j) \, P(H_j)} \]

Fórmula: Regra geral de Leibniz para Derivadas

Significado: É uma generalização da Regra do Produto para derivadas. Fornece uma fórmula para calcular a derivada de ordem n de um produto de duas funções.


\[ \frac{d^n}{dx^n}[f(x)g(x)] = \sum_{k=0}^{n} \binom{n}{k} f^{(k)}(x) g^{(n-k)}(x) \]

Fórmula: Distribuição Qui-Quadrado Multivariada

Significado: Mede a distância de um vetor de observações em relação à média de uma distribuição, levando em consideração a correlação entre as variáveis.


\[ \chi^2 = (\mathbf{x} - \boldsymbol{\mu})^\top \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \]

Fórmula: Equação de Schrödinger Dependente do Tempo

Significado: É a equação central da Mecânica Quântica Não-Relativística. Ela descreve como o estado quântico de um sistema evolui ao longo do tempo. É o análogo quântico da Segunda Lei de Newton na mecânica clássica.


\[ i \hbar \frac{\partial \Psi(\mathbf{r}, t)}{\partial t} = \left( -\frac{\hbar^2}{2m} \nabla^2 + V(\mathbf{r}, t) \right) \Psi(\mathbf{r}, t) \]

Fórmula: Expansão de Taylor Multivariada

Significado: Aproxima uma função suave de várias variáveis por um polinômio quadrático em torno de um ponto específico. É crucial para métodos de otimização como o método de Newton.


\[ f(\mathbf{x}) \approx f(\mathbf{a}) + \nabla f(\mathbf{a})^\top (\mathbf{x} - \mathbf{a}) + \frac{1}{2} (\mathbf{x} - \mathbf{a})^\top H_f(\mathbf{a}) (\mathbf{x} - \mathbf{a}) + \cdots \]

Tópico 4: Duas figuras relacionadas à ciência de dados

Primeira figura.
Primeira figura.


Segunda figura.
Segunda figura.


Tópico 5: Cinco referências bibliográficas

[Cao (2017)] [Brady (2019)] [Donoho (2017)] [Igual and Seguı́ (2024)] [Van Der Aalst (2016)]


Brady, Henry E. 2019. “The Challenge of Big Data and Data Science.” Annual Review of Political Science 22 (1): 297–323.
Cao, Longbing. 2017. “Data Science: A Comprehensive Overview.” ACM Computing Surveys (CSUR) 50 (3): 1–42.
Donoho, David. 2017. “50 Years of Data Science.” Journal of Computational and Graphical Statistics 26 (4): 745–66.
Igual, Laura, and Santi Seguı́. 2024. “Introduction to Data Science.” In Introduction to Data Science: A Python Approach to Concepts, Techniques and Applications, 1–4. Springer.
Van Der Aalst, Wil. 2016. “Data Science in Action.” In Process Mining: Data Science in Action, 3–23. Springer.