Nesta seção será utilizado o conjunto de dados iris,
disponível no próprio R. Esse conjunto contém informações sobre flores
de três espécies: setosa, versicolor e
virginica.
data(iris)
head(iris)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species
## 1 5.1 3.5 1.4 0.2 setosa
## 2 4.9 3.0 1.4 0.2 setosa
## 3 4.7 3.2 1.3 0.2 setosa
## 4 4.6 3.1 1.5 0.2 setosa
## 5 5.0 3.6 1.4 0.2 setosa
## 6 5.4 3.9 1.7 0.4 setosa
O conjunto de dados possui variáveis relacionadas ao comprimento e largura das sépalas e pétalas das flores.
Será criada uma nova variável chamada Area.Petala,
calculada pela multiplicação entre o comprimento e a largura da
pétala.
iris_modificado <- iris %>%
mutate(Area.Petala = Petal.Length * Petal.Width)
head(iris_modificado)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area.Petala
## 1 5.1 3.5 1.4 0.2 setosa 0.28
## 2 4.9 3.0 1.4 0.2 setosa 0.28
## 3 4.7 3.2 1.3 0.2 setosa 0.26
## 4 4.6 3.1 1.5 0.2 setosa 0.30
## 5 5.0 3.6 1.4 0.2 setosa 0.28
## 6 5.4 3.9 1.7 0.4 setosa 0.68
Essa nova variável permite comparar de forma simples o tamanho aproximado das pétalas.
Agora serão selecionadas apenas as flores com área da pétala maior que 5.
iris_filtrado <- iris_modificado %>%
filter(Area.Petala > 5)
head(iris_filtrado)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area.Petala
## 1 7.0 3.2 4.7 1.4 versicolor 6.58
## 2 6.4 3.2 4.5 1.5 versicolor 6.75
## 3 6.9 3.1 4.9 1.5 versicolor 7.35
## 4 5.5 2.3 4.0 1.3 versicolor 5.20
## 5 6.5 2.8 4.6 1.5 versicolor 6.90
## 6 5.7 2.8 4.5 1.3 versicolor 5.85
Com essa filtragem, o relatório passa a analisar somente observações com pétalas maiores.
Os dados filtrados serão ordenados da maior para a menor área da pétala.
iris_ordenado <- iris_filtrado %>%
arrange(desc(Area.Petala))
head(iris_ordenado)
## Sepal.Length Sepal.Width Petal.Length Petal.Width Species Area.Petala
## 1 7.7 2.6 6.9 2.3 virginica 15.87
## 2 7.2 3.6 6.1 2.5 virginica 15.25
## 3 6.3 3.3 6.0 2.5 virginica 15.00
## 4 7.7 3.8 6.7 2.2 virginica 14.74
## 5 6.7 3.3 5.7 2.5 virginica 14.25
## 6 7.7 3.0 6.1 2.3 virginica 14.03
A ordenação facilita a identificação das flores com maiores valores de área da pétala.
resumo <- iris_modificado %>%
group_by(Species) %>%
summarise(
Media_Comprimento_Petala = mean(Petal.Length),
Media_Largura_Petala = mean(Petal.Width),
Media_Area_Petala = mean(Area.Petala),
Quantidade = n()
)
resumo
## # A tibble: 3 × 5
## Species Media_Comprimento_Petala Media_Largura_Petala Media_Area_Petala
## <fct> <dbl> <dbl> <dbl>
## 1 setosa 1.46 0.246 0.366
## 2 versicolor 4.26 1.33 5.72
## 3 virginica 5.55 2.03 11.3
## # ℹ 1 more variable: Quantidade <int>
Observa-se que existem diferenças entre as espécies. A espécie
setosa possui pétalas menores, enquanto a espécie
virginica apresenta maiores médias de comprimento, largura
e área da pétala.
A tabela abaixo foi criada com o pacote DT. Ela permite
buscar informações, ordenar colunas e navegar pelas páginas da
tabela.
Nesta seção são apresentadas cinco equações utilizadas em estatística e ciência de dados.
\[ \bar{x} = \frac{1}{n}\sum_{i=1}^{n}x_i \]
A média aritmética representa o valor médio de um conjunto de dados.
\[ s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1} \]
A variância mede o grau de dispersão dos dados em relação à média.
\[ s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n - 1}} \]
O desvio padrão indica o quanto os valores se afastam da média.
\[ y = \beta_0 + \beta_1x + \varepsilon \]
A regressão linear simples é usada para analisar a relação entre uma variável dependente e uma variável independente.
\[ p = \frac{1}{1 + e^{-(\beta_0 + \beta_1x)}} \]
A função logística é utilizada em problemas de classificação, principalmente na regressão logística.
Nesta seção são apresentados dois gráficos criados a partir do
conjunto de dados iris.
O gráfico de dispersão permite visualizar a relação entre comprimento e largura da pétala, evidenciando diferenças entre as espécies.
O boxplot mostra a distribuição da área da pétala em cada espécie. É
possível observar que a espécie virginica apresenta maiores
valores de área da pétala.
WICKHAM, Hadley; GROLEMUND, Garrett. R for Data Science. O’Reilly Media, 2017.
JAMES, Gareth; WITTEN, Daniela; HASTIE, Trevor; TIBSHIRANI, Robert. An Introduction to Statistical Learning. Springer, 2021.
HAN, Jiawei; KAMBER, Micheline; PEI, Jian. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2011.
PROVOST, Foster; FAWCETT, Tom. Data Science for Business. O’Reilly Media, 2013.
MCKINNEY, Wes. Python for Data Analysis. O’Reilly Media, 2017.
Este relatório apresentou uma aplicação prática utilizando R Markdown. Foram realizadas etapas de carregamento, manipulação e organização de dados, criação de tabela interativa, apresentação de equações em LaTeX, construção de gráficos e inclusão de referências bibliográficas.
Com isso, o relatório atende aos itens solicitados na atividade e demonstra recursos importantes da linguagem R aplicados à ciência de dados.