Relatório da Disciplina CPAD

1. Manipulação de Dados

Nesta seção será utilizado o conjunto de dados iris, disponível no próprio R. Esse conjunto contém informações sobre flores de três espécies: setosa, versicolor e virginica.

Carregamento dos dados

data(iris)
head(iris)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1          5.1         3.5          1.4         0.2  setosa
## 2          4.9         3.0          1.4         0.2  setosa
## 3          4.7         3.2          1.3         0.2  setosa
## 4          4.6         3.1          1.5         0.2  setosa
## 5          5.0         3.6          1.4         0.2  setosa
## 6          5.4         3.9          1.7         0.4  setosa

O conjunto de dados possui variáveis relacionadas ao comprimento e largura das sépalas e pétalas das flores.

Criação de nova variável

Será criada uma nova variável chamada Area.Petala, calculada pela multiplicação entre o comprimento e a largura da pétala.

iris_modificado <- iris %>%
  mutate(Area.Petala = Petal.Length * Petal.Width)

head(iris_modificado)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area.Petala
## 1          5.1         3.5          1.4         0.2  setosa        0.28
## 2          4.9         3.0          1.4         0.2  setosa        0.28
## 3          4.7         3.2          1.3         0.2  setosa        0.26
## 4          4.6         3.1          1.5         0.2  setosa        0.30
## 5          5.0         3.6          1.4         0.2  setosa        0.28
## 6          5.4         3.9          1.7         0.4  setosa        0.68

Essa nova variável permite comparar de forma simples o tamanho aproximado das pétalas.

Filtragem dos dados

Agora serão selecionadas apenas as flores com área da pétala maior que 5.

iris_filtrado <- iris_modificado %>%
  filter(Area.Petala > 5)

head(iris_filtrado)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width    Species Area.Petala
## 1          7.0         3.2          4.7         1.4 versicolor        6.58
## 2          6.4         3.2          4.5         1.5 versicolor        6.75
## 3          6.9         3.1          4.9         1.5 versicolor        7.35
## 4          5.5         2.3          4.0         1.3 versicolor        5.20
## 5          6.5         2.8          4.6         1.5 versicolor        6.90
## 6          5.7         2.8          4.5         1.3 versicolor        5.85

Com essa filtragem, o relatório passa a analisar somente observações com pétalas maiores.

Ordenação dos dados

Os dados filtrados serão ordenados da maior para a menor área da pétala.

iris_ordenado <- iris_filtrado %>%
  arrange(desc(Area.Petala))

head(iris_ordenado)
##   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species Area.Petala
## 1          7.7         2.6          6.9         2.3 virginica       15.87
## 2          7.2         3.6          6.1         2.5 virginica       15.25
## 3          6.3         3.3          6.0         2.5 virginica       15.00
## 4          7.7         3.8          6.7         2.2 virginica       14.74
## 5          6.7         3.3          5.7         2.5 virginica       14.25
## 6          7.7         3.0          6.1         2.3 virginica       14.03

A ordenação facilita a identificação das flores com maiores valores de área da pétala.

Resumo estatístico por espécie

resumo <- iris_modificado %>%
  group_by(Species) %>%
  summarise(
    Media_Comprimento_Petala = mean(Petal.Length),
    Media_Largura_Petala = mean(Petal.Width),
    Media_Area_Petala = mean(Area.Petala),
    Quantidade = n()
  )

resumo
## # A tibble: 3 × 5
##   Species    Media_Comprimento_Petala Media_Largura_Petala Media_Area_Petala
##   <fct>                         <dbl>                <dbl>             <dbl>
## 1 setosa                         1.46                0.246             0.366
## 2 versicolor                     4.26                1.33              5.72 
## 3 virginica                      5.55                2.03             11.3  
## # ℹ 1 more variable: Quantidade <int>

Observa-se que existem diferenças entre as espécies. A espécie setosa possui pétalas menores, enquanto a espécie virginica apresenta maiores médias de comprimento, largura e área da pétala.

2. Tabela Interativa com DT

A tabela abaixo foi criada com o pacote DT. Ela permite buscar informações, ordenar colunas e navegar pelas páginas da tabela.

3. Equações em LaTeX

Nesta seção são apresentadas cinco equações utilizadas em estatística e ciência de dados.

Média aritmética

\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]

A média aritmética representa o valor médio de um conjunto de dados.

Variância amostral

\[ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} \]

A variância mede o grau de dispersão dos dados em relação à média.

Desvio padrão

\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}} \]

O desvio padrão indica o quanto os valores se afastam da média.

Regressão linear simples

\[ y = \beta_0 + \beta_1x + \varepsilon \]

A regressão linear simples é usada para analisar a relação entre uma variável dependente e uma variável independente.

Função logística

\[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1x)}} \]

A função logística é utilizada em problemas de classificação, principalmente na regressão logística.

4. Figuras Relacionadas à Ciência de Dados

Nesta seção são apresentados dois gráficos criados a partir do conjunto de dados iris.

Gráfico de dispersão

O gráfico de dispersão permite visualizar a relação entre comprimento e largura da pétala, evidenciando diferenças entre as espécies.

Boxplot da área da pétala

O boxplot mostra a distribuição da área da pétala em cada espécie. É possível observar que a espécie virginica apresenta maiores valores de área da pétala.

5. Referências Bibliográficas

WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. O’Reilly Media, 2017.

JAMES, Gareth; WITTEN, Daniela; HASTIE, Trevor; TIBSHIRANI, Robert. An Introduction to Statistical Learning. Springer, 2021.

HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.

PROVOST, Foster; FAWCETT, Tom. Data Science for Business. O’Reilly Media, 2013.

MCKINNEY, Wes. Python for Data Analysis. O’Reilly Media, 2017.

Conclusão

Este relatório apresentou uma aplicação prática utilizando R Markdown. Foram realizadas etapas de carregamento, manipulação e organização de dados, criação de tabela interativa, apresentação de equações em LaTeX, construção de gráficos e inclusão de referências bibliográficas.

Com isso, o relatório atende aos itens solicitados na atividade e demonstra recursos importantes da linguagem R aplicados à ciência de dados.