Introdução

A análise de dados é composta por etapas que possibilitam a importação, exploração, modelagem, visualização e, por fim, a exportação do material final. Existem muitas possibilidades de produtos que podem ser gerados, sendo muito comum a elaboração de relatórios e até mesmo a publicação desses online. Após conhecermos os principais pacotes presentes no ecossistema tidyverse, agora temos como foco o R Markdown, a ferramenta utilizada na construção deste documento.
A atividade consistia em importar um conjunto de dados básico e realizar uma manipulação qualquer. Após isso, alguns produtos serão apresentados em abas distintas, dentre eles tabelas dinâmicas, figuras, equações estatísticas, entre outros. Todos os passos seguiram regras de formatação específicas para documentos no R Markdown.

Capítulo 1 — Importação e manipulação de dados

Na manipulação de dados é possível importar diversos tipos de arquivo para o Rstudio. Nesta atividade utilizaremos um banco de dados no formato csv. um dos mais utilizados em análises. Os dados são referentes à aplicação de dois tipos de dieta em 30 indivíduos. É preciso saber, portanto, se a dieta oferenceu mudança significativa de peso e a diferença de peso para cada inivíduo. Inicialmente, vamos observar o banco de dados:

print(dados)
##    individuo peso.pdiet peso.psdieta tratmnt
## 1          1      132.1         98.9   diet1
## 2          2      129.0        125.2   diet2
## 3          3      130.4        127.5   diet1
## 4          4      127.8        125.9   diet1
## 5          5       88.0         81.0   diet2
## 6          6       92.0         89.0   diet1
## 7          7      144.4        140.4   diet2
## 8          8      126.0        123.0   diet1
## 9          9       99.0         95.0   diet2
## 10        10      115.0        110.0   diet1
## 11        11      120.3        118.2   diet2
## 12        12      147.0        143.5   diet2
## 13        13       92.5         88.0   diet1
## 14        14      110.0        108.5   diet1
## 15        15      180.0        175.5   diet2
## 16        16      125.7        120.0   diet2
## 17        17      130.0        125.8   diet1
## 18        18       87.0         85.0   diet2
## 19        19       85.9         83.2   diet2
## 20        20       95.0         91.0   diet1
## 21        21      150.2        147.2   diet2
## 22        22       82.3         80.0   diet1
## 23        23      100.0         98.2   diet2
## 24        24      118.2        117.0   diet1
## 25        25      127.8        120.5   diet1
## 26        26       95.6         92.0   diet2
## 27        27      175.2        170.0   diet1
## 28        28      170.0        165.5   diet2
## 29        29       85.0         75.0   diet1
## 30        30      136.0        133.5   diet2

Podemos observar na tabela acima a distribuição de peso entre os participantes. Seguindo com a análise, precisamos calcular a diferença de peso para cada indivíduo e depois qual dieta foi mais eficiente. Assim temos:

#função para calcular a diferença entre elementos das duas colunas
diferenca <- function(dados, peso.pdiet, peso.psdieta) {
  if (!all(c(peso.pdiet, peso.psdieta) %in% colnames(dados))) {
    stop("uma ou ambas as colunas não existem")
  }
  diferenca <- round(dados[[peso.pdiet]] - dados[[peso.psdieta]], 2)
 
   return(diferenca)
}

#calcular a diferença
diferenca <- diferenca(dados, "peso.pdiet", "peso.psdieta")

print(diferenca)
##  [1] 33.2  3.8  2.9  1.9  7.0  3.0  4.0  3.0  4.0  5.0  2.1  3.5  4.5  1.5  4.5
## [16]  5.7  4.2  2.0  2.7  4.0  3.0  2.3  1.8  1.2  7.3  3.6  5.2  4.5 10.0  2.5
#adicionar a diferença como uma nova coluna no banco de dados
dados$diferenca <- diferenca

print(dados)
##    individuo peso.pdiet peso.psdieta tratmnt diferenca
## 1          1      132.1         98.9   diet1      33.2
## 2          2      129.0        125.2   diet2       3.8
## 3          3      130.4        127.5   diet1       2.9
## 4          4      127.8        125.9   diet1       1.9
## 5          5       88.0         81.0   diet2       7.0
## 6          6       92.0         89.0   diet1       3.0
## 7          7      144.4        140.4   diet2       4.0
## 8          8      126.0        123.0   diet1       3.0
## 9          9       99.0         95.0   diet2       4.0
## 10        10      115.0        110.0   diet1       5.0
## 11        11      120.3        118.2   diet2       2.1
## 12        12      147.0        143.5   diet2       3.5
## 13        13       92.5         88.0   diet1       4.5
## 14        14      110.0        108.5   diet1       1.5
## 15        15      180.0        175.5   diet2       4.5
## 16        16      125.7        120.0   diet2       5.7
## 17        17      130.0        125.8   diet1       4.2
## 18        18       87.0         85.0   diet2       2.0
## 19        19       85.9         83.2   diet2       2.7
## 20        20       95.0         91.0   diet1       4.0
## 21        21      150.2        147.2   diet2       3.0
## 22        22       82.3         80.0   diet1       2.3
## 23        23      100.0         98.2   diet2       1.8
## 24        24      118.2        117.0   diet1       1.2
## 25        25      127.8        120.5   diet1       7.3
## 26        26       95.6         92.0   diet2       3.6
## 27        27      175.2        170.0   diet1       5.2
## 28        28      170.0        165.5   diet2       4.5
## 29        29       85.0         75.0   diet1      10.0
## 30        30      136.0        133.5   diet2       2.5

Para sabermos qual dieta foi mais eficaz, podemos calcular a média de peso perdido para cada indivíduo de acordo com a “diet1” e a “diet2”. Portanto:

peso.por.diet <- dados %>% 
  dplyr::group_by(tratmnt) %>% 
  summarise(media.perda = round(mean(diferenca, na.rm = TRUE), 2))
print(peso.por.diet)
## # A tibble: 2 x 2
##   tratmnt media.perda
##   <chr>         <dbl>
## 1 diet1          5.95
## 2 diet2          3.65

Vejamos então, que analisando a média de peso perdido os participantes que recebereram a “diet1” perderam mais peso.

Capítulo 2 — Visualização de dados: tabela dinâmica

No passo anterior, além de calcular quantos quilos cada participante perdeu de acordo com a dieta oferecida podemos observar o banco de dados e suas modificações ao longo das manipulações no formato de tabelas. Elas, apesar de mostrarem todos os elementos, estéticamente não possuem uma boa apresentação. Para solucionar esta questão, podemos utilizar alguns pacotes para modificar essa visualização melhorante sua apresentação de maneira estética e dinâmica.

Utilizando o pacote DT e a função datatable():

  • Visualizando o banco de dados:
  • Para visualizar as médias de cada dieta:

Capítulo 3 — Equações estatísticas

Outra possibilidade interessante é a inclusão de equações matemáticas no texto. Para isso, é preciso converter as expressões desejadas para o formato LaTeX. Vejamos alguns exemplos, a começar pela equação de média que foi calculada no tópico anterior.
* A média aritmética pode ser calculada com a equação: \[X = \dfrac{\sum_x}{n}\]

Em análises estatísticas iniciais outros valores podem ser calculados para entender o comportamento de variáveis, por exemplo:

  • Mediana \[M = \dfrac{n + 1}{2}\]
  • Desvio padrão \[S = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\]
  • Desvio padrão populacional \[\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}\]
  • Variância \[s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}\]
  • Variância populacional \[\sigma^2 = \frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}\]

Capítulo 4 — Imagens

Após importar, explorar e modelar os seus dados, é de grande auxílio na compreenção dos resultados a representação visual deles. Imagens podem ser incluídas por meio de plotagens via código pelo plot() ou ggplot(). Outra forma também é indicando o diretório da imagem em questão pelo comando: !{título da figura}(/caminho/para/imagem.png)

O resultado seria

Figura 1
Figura 1

Capítulo 5 — Referências bibliográficas

Produtos técnicos assim como os acadêmicos precisam ter o suporte de boas referências, no Markdown é possível altomatizar a forma como usamos citações e agrupamos as referências. Tudo isso utilizando arquivos .bib que compilam as informações de dada referência no formato BibTex, a citação é feita por meio do comando @[identificador].

  • Exemplo de citação

Segundo Gaston et al. (2018) e Gaston (2020)

  • Citação simples entre parêncteses (Han; Ellis, 2020)

Referências

GASTON, Kevin J. Personalised ecology and detection functions. People and Nature, [s. l.], v. 2, n. 4, p. 995–1005, 2020.
GASTON, Kevin J et al. Personalised ecology. Trends in Ecology & Evolution, [s. l.], v. 33, n. 12, p. 916–925, 2018.
HAN, Feifei; ELLIS, Robert. Personalised learning networks in the university blended learning context. Comunicar, [s. l.], v. 28, n. 62, p. 19–30, 2020.