Relatório

Aba 1: Manipulação de Dados

Nesta seção, utilizaremos o dataset nativo iris, disponível automaticamente no R. Esse conjunto de dados contém medidas de flores de três espécies diferentes de íris: setosa, versicolor e virginica. As variáveis principais são o comprimento e a largura das sépalas e pétalas, medidas em centímetros.

O objetivo da manipulação é selecionar apenas algumas observações específicas, criar uma nova variável derivada e organizar os dados de forma mais clara. Para isso, utilizaremos o pacote dplyr, aplicando operações como filter, mutate, arrange e group_by.

library(dplyr)
library(DT)

dados_iris <- iris

dados_manipulados <- dados_iris %>%
  filter(Sepal.Length > 5) %>%
  mutate(
    Razao_Petala = Petal.Length / Petal.Width,
    Tamanho_Sepala = Sepal.Length * Sepal.Width
  ) %>%
  arrange(desc(Razao_Petala)) %>%
  group_by(Species) %>%
  summarise(
    Media_Comprimento_Sepala = mean(Sepal.Length),
    Media_Largura_Sepala = mean(Sepal.Width),
    Media_Razao_Petala = mean(Razao_Petala),
    Media_Tamanho_Sepala = mean(Tamanho_Sepala),
    Quantidade = n()
  )

dados_manipulados
## # A tibble: 3 × 6
##   Species    Media_Comprimento_Sepala Media_Largura_Sepala Media_Razao_Petala
##   <fct>                         <dbl>                <dbl>              <dbl>
## 1 setosa                         5.31                 3.71               6.24
## 2 versicolor                     6.00                 2.80               3.23
## 3 virginica                      6.62                 2.98               2.78
## # ℹ 2 more variables: Media_Tamanho_Sepala <dbl>, Quantidade <int>

O código acima começa carregando o conjunto de dados iris em um novo objeto chamado dados_iris. Em seguida, é aplicado um filtro para manter apenas as flores cujo comprimento da sépala é maior que 5 centímetros.

Depois disso, são criadas duas novas variáveis com mutate. A primeira, chamada Razao_Petala, representa a razão entre o comprimento e a largura da pétala. Essa variável pode ajudar a comparar o formato das pétalas entre as espécies. A segunda variável, chamada Tamanho_Sepala, é calculada multiplicando o comprimento pela largura da sépala, funcionando como uma medida aproximada da área da sépala.

Em seguida, os dados são organizados em ordem decrescente pela variável Razao_Petala, usando arrange. Por fim, os dados são agrupados por espécie com group_by, e a função summarise calcula médias importantes para cada grupo, além da quantidade de observações em cada espécie.

O resultado final permite comparar as espécies de íris com base em medidas médias das sépalas e pétalas. Isso facilita a identificação de diferenças estruturais entre os grupos, algo comum em tarefas de análise exploratória de dados e classificação em Ciência de Dados.

Aba 2: Tabela Interativa

Nesta aba, apresentamos o dataframe manipulado anteriormente em formato de tabela interativa usando o pacote DT. A tabela permite paginação, busca e ordenação das colunas.

datatable(
  dados_manipulados,
  options = list(
    pageLength = 5,
    searching = TRUE,
    ordering = TRUE,
    paging = TRUE,
    language = list(
      search = "Buscar:",
      lengthMenu = "Mostrar _MENU_ registros por página",
      info = "Mostrando _START_ até _END_ de _TOTAL_ registros",
      paginate = list(
        previous = "Anterior",
        `next` = "Próximo"
      )
    )
  )
)

Aba 3: Equações Complexas

1. Regressão Linear Múltipla \[y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \cdots + \beta_px_{ip} + \varepsilon_i\] Essa equação representa um modelo de regressão linear múltipla. O termo \(y_i\) é a variável resposta, enquanto \(x_{i1}, x_{i2}, \ldots, x_{ip}\) são as variáveis explicativas. Os coeficientes \(\beta_0, \beta_1, \ldots, \beta_p\) indicam o efeito de cada variável independente sobre a variável dependente. O termo \(\varepsilon_i\) representa o erro aleatório do modelo.

2. Função de Custo da Regressão Linear \[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left(h_{\theta}(x^{(i)}) - y^{(i)}\right)^2\] Essa equação representa a função de custo do erro quadrático médio usada em regressão linear. O termo \(m\) representa o número de observações, \(h_{\theta}(x^{(i)})\) é a previsão do modelo para a observação \(i\), e \(y^{(i)}\) é o valor real observado. O objetivo do treinamento é minimizar essa função para encontrar os melhores parâmetros \(\theta\).

3. Regressão Logística \[P(y = 1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \cdots + \beta_px_p)}}\] Essa equação representa a regressão logística, muito usada em problemas de classificação binária. Ela calcula a probabilidade de uma observação pertencer à classe 1. A função logística transforma qualquer valor real em uma probabilidade entre 0 e 1.

4. Gradiente Descendente \[\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta)\] Essa equação descreve o algoritmo de gradiente descendente, usado para otimizar modelos de aprendizado de máquina. O parâmetro \(\theta_j\) é atualizado repetidamente na direção que reduz a função de custo \(J(\theta)\). O termo \(\alpha\) é a taxa de aprendizado, que controla o tamanho do passo dado em cada atualização.

5. Função de Ativação Sigmoide \[\sigma(z) = \frac{1}{1 + e^{-z}}\] A função sigmoide é frequentemente usada em redes neurais e regressão logística. Ela transforma um valor real \(z\) em um número entre 0 e 1. Por isso, é útil para representar probabilidades em modelos de classificação.

Aba 4: Figuras

Nesta seção, são inseridas duas figuras usando sintaxe Markdown. Para que as imagens apareçam corretamente no relatório final, o aluno deve colocar os arquivos figura1.png e figura2.png na mesma pasta onde está salvo o arquivo .Rmd.

Descrição da Figura 1
Descrição da Figura 1
Descrição da Figura 2
Descrição da Figura 2

Aviso: Caso as imagens não apareçam ao compilar o documento, verifique se os nomes dos arquivos estão escritos exatamente como no código e se eles estão localizados na mesma pasta do arquivo R Markdown.

Aba 5: Referências Bibliográficas

  • Wickham, H., & Grolemund, G. (2017). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media.
  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An Introduction to Statistical Learning: With Applications in R. Springer.
  • Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
  • Wickham, H. (2016). ggplot2: Elegant Graphics for Data Analysis. Springer.
  • Kuhn, M., & Johnson, K. (2013). Applied Predictive Modeling. Springer.