A análise de dados é composta por etapas que possibilitam a
importação, exploração, modelagem, visualização e, por fim, a exportação
do material final. Existem muitas possibilidades de produtos que podem
ser gerados, sendo muito comum a elaboração de relatórios e até mesmo a
publicação desses online. Após conhecermos os principais
pacotes presentes no ecossistema tidyverse, agora temos como
foco o R Markdown, a ferramenta utilizada na construção deste
documento.
A atividade consistia em importar um conjunto de dados básico e realizar
uma manipulação qualquer. Após isso, alguns produtos serão apresentados
em abas distintas, dentre eles tabelas dinâmicas, figuras, equações
estatísticas, entre outros. Todos os passos seguiram regras de
formatação específicas para documentos no R Markdown.
Na manipulação de dados é possível importar diversos tipos de arquivo para o Rstudio. Nesta atividade utilizaremos um banco de dados no formato csv. um dos mais utilizados em análises. Os dados são referentes à aplicação de dois tipos de dieta em 30 indivíduos. É preciso saber, portanto, se a dieta oferenceu mudança significativa de peso e a diferença de peso para cada inivíduo. Inicialmente, vamos observar o banco de dados:
print(dados)
## individuo peso.pdiet peso.psdieta tratmnt
## 1 1 132.1 98.9 diet1
## 2 2 129.0 125.2 diet2
## 3 3 130.4 127.5 diet1
## 4 4 127.8 125.9 diet1
## 5 5 88.0 81.0 diet2
## 6 6 92.0 89.0 diet1
## 7 7 144.4 140.4 diet2
## 8 8 126.0 123.0 diet1
## 9 9 99.0 95.0 diet2
## 10 10 115.0 110.0 diet1
## 11 11 120.3 118.2 diet2
## 12 12 147.0 143.5 diet2
## 13 13 92.5 88.0 diet1
## 14 14 110.0 108.5 diet1
## 15 15 180.0 175.5 diet2
## 16 16 125.7 120.0 diet2
## 17 17 130.0 125.8 diet1
## 18 18 87.0 85.0 diet2
## 19 19 85.9 83.2 diet2
## 20 20 95.0 91.0 diet1
## 21 21 150.2 147.2 diet2
## 22 22 82.3 80.0 diet1
## 23 23 100.0 98.2 diet2
## 24 24 118.2 117.0 diet1
## 25 25 127.8 120.5 diet1
## 26 26 95.6 92.0 diet2
## 27 27 175.2 170.0 diet1
## 28 28 170.0 165.5 diet2
## 29 29 85.0 75.0 diet1
## 30 30 136.0 133.5 diet2
Podemos observar na tabela acima a distribuição de peso entre os participantes. Seguindo com a análise, precisamos calcular a diferença de peso para cada indivíduo e depois qual dieta foi mais eficiente. Assim temos:
#função para calcular a diferença entre elementos das duas colunas
diferenca <- function(dados, peso.pdiet, peso.psdieta) {
if (!all(c(peso.pdiet, peso.psdieta) %in% colnames(dados))) {
stop("uma ou ambas as colunas não existem")
}
diferenca <- round(dados[[peso.pdiet]] - dados[[peso.psdieta]], 2)
return(diferenca)
}
#calcular a diferença
diferenca <- diferenca(dados, "peso.pdiet", "peso.psdieta")
print(diferenca)
## [1] 33.2 3.8 2.9 1.9 7.0 3.0 4.0 3.0 4.0 5.0 2.1 3.5 4.5 1.5 4.5
## [16] 5.7 4.2 2.0 2.7 4.0 3.0 2.3 1.8 1.2 7.3 3.6 5.2 4.5 10.0 2.5
#adicionar a diferença como uma nova coluna no banco de dados
dados$diferenca <- diferenca
print(dados)
## individuo peso.pdiet peso.psdieta tratmnt diferenca
## 1 1 132.1 98.9 diet1 33.2
## 2 2 129.0 125.2 diet2 3.8
## 3 3 130.4 127.5 diet1 2.9
## 4 4 127.8 125.9 diet1 1.9
## 5 5 88.0 81.0 diet2 7.0
## 6 6 92.0 89.0 diet1 3.0
## 7 7 144.4 140.4 diet2 4.0
## 8 8 126.0 123.0 diet1 3.0
## 9 9 99.0 95.0 diet2 4.0
## 10 10 115.0 110.0 diet1 5.0
## 11 11 120.3 118.2 diet2 2.1
## 12 12 147.0 143.5 diet2 3.5
## 13 13 92.5 88.0 diet1 4.5
## 14 14 110.0 108.5 diet1 1.5
## 15 15 180.0 175.5 diet2 4.5
## 16 16 125.7 120.0 diet2 5.7
## 17 17 130.0 125.8 diet1 4.2
## 18 18 87.0 85.0 diet2 2.0
## 19 19 85.9 83.2 diet2 2.7
## 20 20 95.0 91.0 diet1 4.0
## 21 21 150.2 147.2 diet2 3.0
## 22 22 82.3 80.0 diet1 2.3
## 23 23 100.0 98.2 diet2 1.8
## 24 24 118.2 117.0 diet1 1.2
## 25 25 127.8 120.5 diet1 7.3
## 26 26 95.6 92.0 diet2 3.6
## 27 27 175.2 170.0 diet1 5.2
## 28 28 170.0 165.5 diet2 4.5
## 29 29 85.0 75.0 diet1 10.0
## 30 30 136.0 133.5 diet2 2.5
Para sabermos qual dieta foi mais eficaz, podemos calcular a média de peso perdido para cada indivíduo de acordo com a “diet1” e a “diet2”. Portanto:
peso.por.diet <- dados %>%
dplyr::group_by(tratmnt) %>%
summarise(media.perda = round(mean(diferenca, na.rm = TRUE), 2))
print(peso.por.diet)
## # A tibble: 2 x 2
## tratmnt media.perda
## <chr> <dbl>
## 1 diet1 5.95
## 2 diet2 3.65
Vejamos então, que analisando a média de peso perdido os participantes que recebereram a “diet1” perderam mais peso.
No passo anterior, além de calcular quantos quilos cada participante perdeu de acordo com a dieta oferecida podemos observar o banco de dados e suas modificações ao longo das manipulações no formato de tabelas. Elas, apesar de mostrarem todos os elementos, estéticamente não possuem uma boa apresentação. Para solucionar esta questão, podemos utilizar alguns pacotes para modificar essa visualização melhorante sua apresentação de maneira estética e dinâmica.
Utilizando o pacote DT e a função
datatable():
Outra possibilidade interessante é a inclusão de equações matemáticas
no texto. Para isso, é preciso converter as expressões desejadas para o
formato LaTeX. Vejamos alguns exemplos, a começar pela equação de média
que foi calculada no tópico anterior.
* A média aritmética pode ser calculada com a equação: \[X = \dfrac{\sum_x}{n}\]
Em análises estatísticas iniciais outros valores podem ser calculados para entender o comportamento de variáveis, por exemplo:
Após importar, explorar e modelar os seus dados, é de grande auxílio
na compreenção dos resultados a representação visual deles. Imagens
podem ser incluídas por meio de plotagens via código pelo
plot() ou ggplot(). Outra forma também é
indicando o diretório da imagem em questão pelo comando:
!{título da figura}(/caminho/para/imagem.png)
O resultado seria
Produtos técnicos assim como os acadêmicos precisam ter o suporte de
boas referências, no Markdown é possível altomatizar a forma como usamos
citações e agrupamos as referências. Tudo isso utilizando arquivos .bib
que compilam as informações de dada referência no formato BibTex, a
citação é feita por meio do comando @[identificador].
Segundo Gaston et al. (2018) e Gaston (2020)