1. Apresentação do relatório

Este relatório foi desenvolvido em R Markdown com o objetivo de demonstrar recursos básicos de análise de dados utilizando a linguagem R. A atividade inclui o carregamento de uma base de dados simples, manipulação dos dados, criação de tabela interativa com o pacote DT, apresentação de equações em LaTeX, construção de figuras relacionadas à ciência de dados e inclusão de referências bibliográficas.

A base utilizada será iris, um conjunto de dados clássico disponível no próprio R. Essa base contém medidas de flores de três espécies diferentes de íris: setosa, versicolor e virginica.

2. Configuração inicial

Nesta etapa, são carregados os pacotes necessários para a execução do relatório.

library(dplyr)
library(DT)
library(ggplot2)
library(tidyr)

3. Carregamento da base de dados

O conjunto de dados iris já está disponível internamente no R. Ele contém 150 observações e 5 variáveis: comprimento da sépala, largura da sépala, comprimento da pétala, largura da pétala e espécie da flor.

dados <- iris

head(dados)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

Também podemos verificar a estrutura da base:

str(dados)

## 'data.frame':    150 obs. of  5 variables:
##  $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
##  $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
##  $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
##  $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
##  $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...

4. Tratamento e manipulação dos dados

Nesta seção, serão realizadas operações simples de manipulação de dados, incluindo criação de novas variáveis, filtragem, ordenação e resumo estatístico.

4.1 Criação de novas variáveis

A seguir, criamos duas novas variáveis:

Area_Petala: resultado da multiplicação entre comprimento e largura da pétala;
Classificacao_Petala: classificação simples da área da pétala como pequena ou grande.

dados_tratados <- dados %>%
  mutate(
    Area_Petala = Petal.Length * Petal.Width,
    Classificacao_Petala = ifelse(
      Area_Petala >= mean(Area_Petala),
      "Pétala grande",
      "Pétala pequena"
    )
  )

head(dados_tratados)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area_Petala
## 1          5.1         3.5          1.4         0.2  setosa        0.28
## 2          4.9         3.0          1.4         0.2  setosa        0.28
## 3          4.7         3.2          1.3         0.2  setosa        0.26
## 4          4.6         3.1          1.5         0.2  setosa        0.30
## 5          5.0         3.6          1.4         0.2  setosa        0.28
## 6          5.4         3.9          1.7         0.4  setosa        0.68
##   Classificacao_Petala
## 1       Pétala pequena
## 2       Pétala pequena
## 3       Pétala pequena
## 4       Pétala pequena
## 5       Pétala pequena
## 6       Pétala pequena

4.2 Filtragem dos dados

Nesta etapa, filtramos apenas as flores da espécie virginica.

dados_virginica <- dados_tratados %>%
  filter(Species == "virginica")

head(dados_virginica)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species Area_Petala
## 1          6.3         3.3          6.0         2.5 virginica       15.00
## 2          5.8         2.7          5.1         1.9 virginica        9.69
## 3          7.1         3.0          5.9         2.1 virginica       12.39
## 4          6.3         2.9          5.6         1.8 virginica       10.08
## 5          6.5         3.0          5.8         2.2 virginica       12.76
## 6          7.6         3.0          6.6         2.1 virginica       13.86
##   Classificacao_Petala
## 1        Pétala grande
## 2        Pétala grande
## 3        Pétala grande
## 4        Pétala grande
## 5        Pétala grande
## 6        Pétala grande

4.3 Ordenação dos dados

Agora os dados são ordenados pela área da pétala, da maior para a menor.

dados_ordenados <- dados_tratados %>%
  arrange(desc(Area_Petala))

head(dados_ordenados)

##   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species Area_Petala
## 1          7.7         2.6          6.9         2.3 virginica       15.87
## 2          7.2         3.6          6.1         2.5 virginica       15.25
## 3          6.3         3.3          6.0         2.5 virginica       15.00
## 4          7.7         3.8          6.7         2.2 virginica       14.74
## 5          6.7         3.3          5.7         2.5 virginica       14.25
## 6          7.7         3.0          6.1         2.3 virginica       14.03
##   Classificacao_Petala
## 1        Pétala grande
## 2        Pétala grande
## 3        Pétala grande
## 4        Pétala grande
## 5        Pétala grande
## 6        Pétala grande

4.4 Resumo estatístico por espécie

Nesta etapa, calculamos a média do comprimento da pétala, da largura da pétala e da área da pétala para cada espécie.

resumo_especies <- dados_tratados %>%
  group_by(Species) %>%
  summarise(
    Media_Comprimento_Petala = mean(Petal.Length),
    Media_Largura_Petala = mean(Petal.Width),
    Media_Area_Petala = mean(Area_Petala)
  )

resumo_especies

## # A tibble: 3 × 4
##   Species    Media_Comprimento_Petala Media_Largura_Petala Media_Area_Petala
##   <fct>                         <dbl>                <dbl>             <dbl>
## 1 setosa                         1.46                0.246             0.366
## 2 versicolor                     4.26                1.33              5.72 
## 3 virginica                      5.55                2.03             11.3

5. Tabela interativa com DT

A tabela abaixo foi criada com o pacote DT. Ela permite realizar busca, ordenação das colunas e paginação dos dados.

datatable(
  dados_tratados,
  caption = "Tabela interativa da base iris com variáveis criadas",
  options = list(
    pageLength = 10,
    searching = TRUE,
    ordering = TRUE,
    paging = TRUE,
    language = list(
      search = "Pesquisar:",
      lengthMenu = "Mostrar _MENU_ registros por página"
    )
  )
)

6. Equações em LaTeX aplicadas à análise de dados

Nesta seção, são apresentadas cinco equações importantes para análise de dados, estatística e modelagem.

6.1 Média ponderada

A média ponderada é utilizada quando diferentes valores possuem pesos distintos.

\[ \bar{x}_p = \frac{\sum_{i=1}^{n} w_i x_i}{\sum_{i=1}^{n} w_i} \]

Onde:

\(\bar{x}_p\) representa a média ponderada;
\(x_i\) representa cada valor observado;
\(w_i\) representa o peso de cada valor;
\(n\) representa o número de observações.

6.2 Coeficiente de variação

O coeficiente de variação mede a dispersão relativa dos dados em relação à média.

\[ CV = \frac{s}{\bar{x}} \times 100 \]

Onde:

\(CV\) é o coeficiente de variação;
\(s\) é o desvio padrão;
\(\bar{x}\) é a média dos dados.

Essa medida é útil para comparar a variabilidade entre conjuntos de dados com escalas diferentes.

6.3 Distância Euclidiana

A distância Euclidiana mede a distância entre dois pontos em um espaço multidimensional.

\[ d(x,y) = \sqrt{\sum_{i=1}^{n}(x_i - y_i)^2} \]

Onde:

\(d(x,y)\) é a distância entre os pontos \(x\) e \(y\);
\(x_i\) e \(y_i\) são as coordenadas dos pontos;
\(n\) é o número de dimensões.

Essa equação é bastante usada em algoritmos de agrupamento e classificação.

6.4 Entropia

A entropia mede o grau de incerteza ou impureza em um conjunto de dados.

\[ H(X) = -\sum_{i=1}^{n} p_i \log_2(p_i) \]

Onde:

\(H(X)\) representa a entropia;
\(p_i\) representa a probabilidade de ocorrência de cada classe;
\(n\) representa o número de classes.

Essa medida é usada em árvores de decisão e outros métodos de aprendizado de máquina.

6.5 Função logística

A função logística é utilizada em modelos de classificação, como a regressão logística.

\[ P(Y=1|X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X)}} \]

Onde:

\(P(Y=1|X)\) representa a probabilidade de ocorrência da classe 1;
\(\beta_0\) é o intercepto;
\(\beta_1\) é o coeficiente da variável explicativa;
\(X\) é a variável independente;
\(e\) é a constante de Euler.

7. Visualizações relacionadas à ciência de dados

Nesta seção, são apresentadas duas figuras criadas com o pacote ggplot2.

7.1 Figura 1: Comprimento e largura das pétalas por espécie

O gráfico de dispersão abaixo mostra a relação entre o comprimento e a largura das pétalas, separando as observações por espécie.

ggplot(dados_tratados, aes(x = Petal.Length, y = Petal.Width, color = Species)) +
  geom_point(size = 3, alpha = 0.8) +
  labs(
    title = "Relação entre comprimento e largura das pétalas",
    x = "Comprimento da pétala",
    y = "Largura da pétala",
    color = "Espécie"
  ) +
  theme_minimal()

7.2 Figura 2: Área média da pétala por espécie

O gráfico abaixo mostra a área média da pétala para cada espécie da base iris.

resumo_especies %>%
  ggplot(aes(x = Species, y = Media_Area_Petala)) +
  geom_col() +
  labs(
    title = "Área média da pétala por espécie",
    x = "Espécie",
    y = "Área média da pétala"
  ) +
  theme_minimal()

8. Discussão dos resultados

A análise exploratória permite observar diferenças importantes entre as espécies da base iris. A espécie setosa apresenta, em geral, pétalas menores, enquanto as espécies versicolor e virginica apresentam pétalas maiores.

A criação da variável Area_Petala facilitou a comparação entre as espécies, pois combina duas medidas importantes em uma única variável. Além disso, a tabela interativa permite explorar os dados de forma dinâmica, possibilitando buscas e ordenações.

Os gráficos ajudam a visualizar padrões que não seriam tão evidentes apenas com a leitura da tabela. O gráfico de dispersão mostra que as espécies possuem agrupamentos relativamente distintos quando analisamos comprimento e largura das pétalas.

9. Conclusão

O relatório demonstrou como o R Markdown pode ser usado para organizar uma análise de dados de forma clara e estruturada. Foram aplicadas técnicas simples de manipulação de dados, criação de tabela interativa, uso de equações matemáticas em LaTeX, construção de visualizações e apresentação de referências bibliográficas.

Dessa forma, a atividade atende aos critérios propostos, integrando código, explicações, tabelas, fórmulas, gráficos e referências em um único documento HTML.

10. Referências bibliográficas

KUHN, Max; JOHNSON, Kjell. Applied Predictive Modeling. New York: Springer, 2013.

IZENMAN, Alan Julian. Modern Multivariate Statistical Techniques: Regression, Classification, and Manifold Learning. New York: Springer, 2008.

MURPHY, Kevin P. Machine Learning: A Probabilistic Perspective. Cambridge: MIT Press, 2012.

TUFTE, Edward R. The Visual Display of Quantitative Information. Cheshire: Graphics Press, 2001.

FIELD, Andy; MILES, Jeremy; FIELD, Zoë. Discovering Statistics Using R. London: SAGE Publications, 2012.

Análise Exploratória de Dados com R

Luiz Felipe Maranhão

2026-05-12

1. Apresentação do relatório

2. Configuração inicial

3. Carregamento da base de dados

4. Tratamento e manipulação dos dados

4.1 Criação de novas variáveis

4.2 Filtragem dos dados

4.3 Ordenação dos dados

4.4 Resumo estatístico por espécie

5. Tabela interativa com DT

6. Equações em LaTeX aplicadas à análise de dados

6.1 Média ponderada

6.2 Coeficiente de variação

6.3 Distância Euclidiana

6.4 Entropia

6.5 Função logística

7. Visualizações relacionadas à ciência de dados

7.1 Figura 1: Comprimento e largura das pétalas por espécie

7.2 Figura 2: Área média da pétala por espécie

8. Discussão dos resultados

9. Conclusão

10. Referências bibliográficas