1) Carregue um conjunto de dados simples. Realize manipulação simples nos dados (por exemplo, ordenação, filtragem, criação de novas variáveis, etc.).

Usando o Dataset IRIS

summary(iris)        
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100  
##  1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300  
##  Median :5.800   Median :3.000   Median :4.350   Median :1.300  
##  Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199  
##  3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800  
##  Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500  
##        Species  
##  setosa    :50  
##  versicolor:50  
##  virginica :50  
##                 
##                 
## 
# Dataset iris já vem no R, então não precisa carregar pacotes

dados <- iris

# 1️⃣ Criar uma nova variável — razão entre comprimento e largura da sépala

dados$Sepal.Ratio <- dados$Sepal.Length / dados$Sepal.Width

# 2️⃣ Criar uma variável categórica simples com base no comprimento da pétala

dados$Categoria.Petala <- ifelse(dados$Petal.Length < 2, "Curta",
ifelse(dados$Petal.Length < 5, "Média", "Longa"))

# 3️⃣ Filtrar apenas flores com pétalas longas

dados_filtrados <- subset(dados, Categoria.Petala == "Longa")

# 4️⃣ Ordenar os dados pelo comprimento da pétala (decrescente)

dados_ordenados <- dados_filtrados[order(-dados_filtrados$Petal.Length), ]

# 5️⃣ Mostrar estatísticas e amostra dos dados processados

summary(dados_ordenados)
##   Sepal.Length    Sepal.Width     Petal.Length    Petal.Width   
##  Min.   :5.700   Min.   :2.200   Min.   :5.000   Min.   :1.400  
##  1st Qu.:6.300   1st Qu.:2.800   1st Qu.:5.125   1st Qu.:1.800  
##  Median :6.600   Median :3.000   Median :5.600   Median :2.050  
##  Mean   :6.674   Mean   :2.991   Mean   :5.628   Mean   :2.037  
##  3rd Qu.:7.050   3rd Qu.:3.200   3rd Qu.:5.900   3rd Qu.:2.300  
##  Max.   :7.900   Max.   :3.800   Max.   :6.900   Max.   :2.500  
##        Species    Sepal.Ratio    Categoria.Petala  
##  setosa    : 0   Min.   :1.824   Length:46         
##  versicolor: 2   1st Qu.:2.073   Class :character  
##  virginica :44   Median :2.224   Mode  :character  
##                  Mean   :2.249                     
##                  3rd Qu.:2.362                     
##                  Max.   :2.962
head(dados_ordenados, 10)
##     Sepal.Length Sepal.Width Petal.Length Petal.Width   Species Sepal.Ratio
## 119          7.7         2.6          6.9         2.3 virginica    2.961538
## 118          7.7         3.8          6.7         2.2 virginica    2.026316
## 123          7.7         2.8          6.7         2.0 virginica    2.750000
## 106          7.6         3.0          6.6         2.1 virginica    2.533333
## 132          7.9         3.8          6.4         2.0 virginica    2.078947
## 108          7.3         2.9          6.3         1.8 virginica    2.517241
## 110          7.2         3.6          6.1         2.5 virginica    2.000000
## 131          7.4         2.8          6.1         1.9 virginica    2.642857
## 136          7.7         3.0          6.1         2.3 virginica    2.566667
## 101          6.3         3.3          6.0         2.5 virginica    1.909091
##     Categoria.Petala
## 119            Longa
## 118            Longa
## 123            Longa
## 106            Longa
## 132            Longa
## 108            Longa
## 110            Longa
## 131            Longa
## 136            Longa
## 101            Longa

2) Utilize o pacote DT para criar uma tabela interativa, proporcionando funcionalidades como ordenação, busca e paginação.

Não consegui desenvolver

3) Escreva e apresente cinco equações complexas utilizando a sintaxe do LaTeX. Forneça o significado para cada equação.

(1) Média amostral

\(\bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i\)

Significado: média dos valores observados em uma amostra de tamanho n.


(2) Variância amostral

\(s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2\)

Significado: mede o grau de dispersão dos dados em torno da média.


(3) Regressão linear simples

\(y_i = \beta_0 + \beta_1 x_i + \varepsilon_i\)

Significado: descreve uma relação linear entre uma variável explicativa \(x\) e uma resposta \(y\),

onde \(\beta_0\) é o intercepto, \(\beta_1\) é o coeficiente angular e \(\varepsilon_i\) é o erro aleatório.


(4) Gradiente descendente (otimização)

\(\theta^{(t+1)} = \theta^{(t)} - \eta \, \nabla J(\theta^{(t)})\)

Significado: representa a atualização iterativa de parâmetros \(\theta\) para minimizar a função de custo \(J(\theta)\),

utilizando uma taxa de aprendizado \(\eta\).


(5) Entropia cruzada (classificação binária)

\(\mathcal{L}(y, \hat{y}) = -\big[ y \log(\hat{y}) + (1 - y) \log(1 - \hat{y}) \big]\)

Significado: é uma função de perda usada em modelos de classificação binária,

que penaliza previsões incorretas e mede a diferença entre as distribuições reais e previstas.

4) Adicione duas figuras relacionadas à ciência de dados.

(1) As seis fases da Análise de Dados

Modelo de Machine Learning
Modelo de Machine Learning

Descrição:
A imagem ilustra o fluxo básico de um modelo de aprendizado de máquina:
entrada de dados, pré-processamento, treinamento do modelo, avaliação e uso para previsão (inferência).


(2) Ciclo de Vida da Ciência de Dados

Ciclo de Vida da Ciência de Dados
Ciclo de Vida da Ciência de Dados

Descrição:
O diagrama mostra as seis fases principais da análise de dados:
1. Coleta de dados;
2. Preparação e limpeza;
3. Exploração e análise;
4. Modelagem com algoritmos;
5. Avaliação dos resultados;
6. Implantação e comunicação do conhecimento gerado.

Essas etapas são interdependentes e formam o ciclo completo da Ciência de Dados moderna.

5) Pesquise e inclua cinco referências bibliográficas.

1. Azevedo Sampaio, Silva Sousa, and Nazário Rocha (2018)


2. Sampaio, Ramalho, and Tedesco (2008)


3. Sampaio and Silva (2019)


4. Vasconcelos and Andrade (2018)


5. Andrade et al. (2009)


6. Machida et al. (2011)


7. Paes et al. (2022)


8. Santana et al. (2023)


9. Brito and Adeodato (2023)

Andrade, Ermeson, Paulo Maciel, Gustavo Callou, and Bruno Nogueira. 2009. “A Methodology for Mapping Sysml Activity Diagram to Time Petri Net for Requirement Validation of Embedded Real-Time Systems with Energy Constraints.” In 2009 Third International Conference on Digital Society, 266–71. IEEE.
Azevedo Sampaio, Pablo, Rodrigo da Silva Sousa, and Alessandro Nazário Rocha. 2018. “Reducing the Range of Perception in Multi-Agent Patrolling Strategies.” Journal of Intelligent & Robotic Systems 91 (2): 219–31.
Brito, Kellyton, and Paulo Jorge Leitão Adeodato. 2023. “Machine Learning for Predicting Elections in Latin America Based on Social Media Engagement and Polls.” Government Information Quarterly 40 (1): 101782.
Machida, Fumio, Ermeson Andrade, Dong Seong Kim, and Kishor S Trivedi. 2011. “Candy: Component-Based Availability Modeling Framework for Cloud Service Management Using Sysml.” In 2011 IEEE 30th International Symposium on Reliable Distributed Systems, 209–18. IEEE.
Paes, Vinı́cius J, Danilo Araújo, Kellyton Brito, and Ermeson Andrade. 2022. “Análise de Sentimento Em Tweets Relacionados Ao Desmatamento Da Floresta Amazônica.” In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), 61–72. SBC.
Sampaio, Pablo Azevedo, Geber Ramalho, and Patrı́cia Tedesco. 2008. “CinBalada: A Multiagent Rhythm Factory.” Journal of the Brazilian Computer Society 14 (3): 31–49.
Sampaio, Pablo Azevedo, and Kenedy Felipe dos Santos da Silva. 2019. “Decentralized Strategies Based on Node Marks for Multi-Robot Patrolling on Weighted Graphs.” In 2019 Latin American Robotics Symposium (LARS), 2019 Brazilian Symposium on Robotics (SBR) and 2019 Workshop on Robotics in Education (WRE), 317–22. IEEE.
Santana, Maria, Juliana Lima, Andreiwid Correa, and Kellyton Brito. 2023. “Engajamento No TikTok Dos Candidatos às Eleições Brasileiras de 2022–Resultados Iniciais.” In Brazilian Workshop on Social Network Analysis and Mining (BraSNAM), 151–62. SBC.
Vasconcelos, Viviane, and Ermeson Andrade. 2018. “Análise Da Evasão de Alunos Na Licenciatura Em Computação.” In Workshop Sobre Educação Em Computação (WEI). SBC.