Nesta seção, utilizaremos o dataset nativo iris,
disponível automaticamente no R. Esse conjunto de dados contém medidas
de flores de três espécies diferentes de íris: setosa, versicolor e
virginica. As variáveis principais são o comprimento e a largura das
sépalas e pétalas, medidas em centímetros.
O objetivo da manipulação é selecionar apenas algumas observações
específicas, criar uma nova variável derivada e organizar os dados de
forma mais clara. Para isso, utilizaremos o pacote dplyr,
aplicando operações como filter, mutate,
arrange e group_by.
library(dplyr)
library(DT)
dados_iris <- iris
dados_manipulados <- dados_iris %>%
filter(Sepal.Length > 5) %>%
mutate(
Razao_Petala = Petal.Length / Petal.Width,
Tamanho_Sepala = Sepal.Length * Sepal.Width
) %>%
arrange(desc(Razao_Petala)) %>%
group_by(Species) %>%
summarise(
Media_Comprimento_Sepala = mean(Sepal.Length),
Media_Largura_Sepala = mean(Sepal.Width),
Media_Razao_Petala = mean(Razao_Petala),
Media_Tamanho_Sepala = mean(Tamanho_Sepala),
Quantidade = n()
)
dados_manipulados
## # A tibble: 3 × 6
## Species Media_Comprimento_Sepala Media_Largura_Sepala Media_Razao_Petala
## <fct> <dbl> <dbl> <dbl>
## 1 setosa 5.31 3.71 6.24
## 2 versicolor 6.00 2.80 3.23
## 3 virginica 6.62 2.98 2.78
## # ℹ 2 more variables: Media_Tamanho_Sepala <dbl>, Quantidade <int>
O código acima começa carregando o conjunto de dados
iris em um novo objeto chamado dados_iris. Em
seguida, é aplicado um filtro para manter apenas as flores cujo
comprimento da sépala é maior que 5 centímetros.
Depois disso, são criadas duas novas variáveis com
mutate. A primeira, chamada Razao_Petala,
representa a razão entre o comprimento e a largura da pétala. Essa
variável pode ajudar a comparar o formato das pétalas entre as espécies.
A segunda variável, chamada Tamanho_Sepala, é calculada
multiplicando o comprimento pela largura da sépala, funcionando como uma
medida aproximada da área da sépala.
Em seguida, os dados são organizados em ordem decrescente pela
variável Razao_Petala, usando arrange. Por
fim, os dados são agrupados por espécie com group_by, e a
função summarise calcula médias importantes para cada
grupo, além da quantidade de observações em cada espécie.
O resultado final permite comparar as espécies de íris com base em medidas médias das sépalas e pétalas. Isso facilita a identificação de diferenças estruturais entre os grupos, algo comum em tarefas de análise exploratória de dados e classificação em Ciência de Dados.
Nesta aba, apresentamos o dataframe manipulado anteriormente em
formato de tabela interativa usando o pacote DT. A tabela
permite paginação, busca e ordenação das colunas.
datatable(
dados_manipulados,
options = list(
pageLength = 5,
searching = TRUE,
ordering = TRUE,
paging = TRUE,
language = list(
search = "Buscar:",
lengthMenu = "Mostrar _MENU_ registros por página",
info = "Mostrando _START_ até _END_ de _TOTAL_ registros",
paginate = list(
previous = "Anterior",
`next` = "Próximo"
)
)
)
)
1. Regressão Linear Múltipla \[y_i = \beta_0 + \beta_1x_{i1} + \beta_2x_{i2} + \cdots + \beta_px_{ip} + \varepsilon_i\] Essa equação representa um modelo de regressão linear múltipla. O termo \(y_i\) é a variável resposta, enquanto \(x_{i1}, x_{i2}, \ldots, x_{ip}\) são as variáveis explicativas. Os coeficientes \(\beta_0, \beta_1, \ldots, \beta_p\) indicam o efeito de cada variável independente sobre a variável dependente. O termo \(\varepsilon_i\) representa o erro aleatório do modelo.
2. Função de Custo da Regressão Linear \[J(\theta) = \frac{1}{2m} \sum_{i=1}^{m} \left(h_{\theta}(x^{(i)}) - y^{(i)}\right)^2\] Essa equação representa a função de custo do erro quadrático médio usada em regressão linear. O termo \(m\) representa o número de observações, \(h_{\theta}(x^{(i)})\) é a previsão do modelo para a observação \(i\), e \(y^{(i)}\) é o valor real observado. O objetivo do treinamento é minimizar essa função para encontrar os melhores parâmetros \(\theta\).
3. Regressão Logística \[P(y = 1|x) = \frac{1}{1 + e^{-(\beta_0 + \beta_1x_1 + \cdots + \beta_px_p)}}\] Essa equação representa a regressão logística, muito usada em problemas de classificação binária. Ela calcula a probabilidade de uma observação pertencer à classe 1. A função logística transforma qualquer valor real em uma probabilidade entre 0 e 1.
4. Gradiente Descendente \[\theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta)\] Essa equação descreve o algoritmo de gradiente descendente, usado para otimizar modelos de aprendizado de máquina. O parâmetro \(\theta_j\) é atualizado repetidamente na direção que reduz a função de custo \(J(\theta)\). O termo \(\alpha\) é a taxa de aprendizado, que controla o tamanho do passo dado em cada atualização.
5. Função de Ativação Sigmoide \[\sigma(z) = \frac{1}{1 + e^{-z}}\] A função sigmoide é frequentemente usada em redes neurais e regressão logística. Ela transforma um valor real \(z\) em um número entre 0 e 1. Por isso, é útil para representar probabilidades em modelos de classificação.
Nesta seção, são inseridas duas figuras usando sintaxe Markdown. Para
que as imagens apareçam corretamente no relatório final, o aluno deve
colocar os arquivos figura1.png e figura2.png
na mesma pasta onde está salvo o arquivo .Rmd.
Aviso: Caso as imagens não apareçam ao compilar o documento, verifique se os nomes dos arquivos estão escritos exatamente como no código e se eles estão localizados na mesma pasta do arquivo R Markdown.