Para iniciar o tratamento de dados e, posteriormente, realizar a análise exploratória, foi necessário organizar as informações em uma planilha no Excel. Para isso, foram criadas diversas abas, cada uma correspondente a uma região do corpo, contendo os respectivos metabólitos e suas quantidades de ocorrência. Essa estapa foi necessária, pois a planilha original apresentava muitas informações, dificultando a visualização e o manuseio dos dados
Após essa organização inicial, foi criada uma nova aba reunindo todos os dados, estruturada nas seguintes colunas: região do corpo, metabólito e quantidade. Adicionalmente, realizou-se um procedimento de padronização, que inclui deixar uniforme a fonte, além da remoção de espaçamentos e a converção de todas as entradas para letras minúsculas
=MINÚSCULA(ARRUMAR(A1)).
Essa padronização foi necesária para minimizar erros de leitura e garantir maior precisão nas etapas posteriores de análise.
library(dplyr)
library(ggplot2)
library(pheatmap)
library(patchwork)
library(knitr)
library(gt)
library(readxl)
Após a organização e padronização dos dados a tabela foi importada com 1423 observações e 3 variáveis, na qual as observações correspondem aos metabólitos e as variáveis representam as colunas montadas anteriormente.
dados <- read.csv2("dados ar (5) (23) - Copia.csv")
kable(head(dados, n = 10))
| regiao_do_corpo | metabolitos | quantidade |
|---|---|---|
| mouth | histidine | 1 |
| mouth | phenylalanine | 1 |
| mouth | phosphoethanolamine, | 1 |
| mouth | taurine | 1 |
| head_and_neck | 1,2-dihydroxynapthalene-6-sulfonic acid | 1 |
| head_and_neck | 1-monopalmitin | 1 |
| head_and_neck | 2-hydroxy-2-methylbutyric acid | 1 |
| head_and_neck | 2-hydroxybutyric acid | 1 |
| head_and_neck | 2-ketoisocaproic acid | 1 |
| head_and_neck | 2-methoxyestrone-3-glucuronide | 1 |
Apartir desse banco de dados, foi possível filtrar os 15 metabólitos com maior número de registros na literatura, independemente da região do corpo em que foram relatados, originando um novo banco de dados chamado dados_total , em seguida foi construído um gráfico de barras, relacionando esses 15 metabólitos com a ocorrência dos mesmos.
[vale ressaltar que esses dados levantados, cosideram estudos que utilizaram grupos (bn e bn_ca)]
dados_total <- dados %>%
group_by(metabolitos) %>%
summarise(total = sum(quantidade, na.rm = TRUE)) %>%
arrange(desc(total)) %>%
slice_head(n = 15)
dados_total %>%
ggplot(aes(x = reorder(metabolitos, total), y = total)) +
geom_col(fill = "grey30") +
coord_flip() +
scale_y_continuous(
limits = c(0, 25),
breaks = seq(0, 25, by = 1),
expand = c(0, 0)
) +
labs(
title = "Gráfico 1.1 Contendo os 15 metabólitos com maiores quantidades de registros
na literatura independentemente da região do corpo",
x = "metabolites",
y = "number of occurrence"
) +
theme_classic()
Tendo em vista que o objetivo foi analisar uma possível correlação entre metabólitos e regiões do corpo, com potencial de atuação como biomarcadores, de acordo com os artigos de revisão referenciados, foi realizado uma nova filtragem, contabilizando a quantidade de vezes em que os metabólitos foram associados a diferentes regiões do corpo, independentemente da quantidade absoluta em que foram relatos nos estudos, criando uma novo banco de dados chamado dados_regioes. [foi selecionado somente os 15 primeiros, por uma questão visual]
dados_regioes <- dados %>%
group_by(metabolitos) %>%
summarise(
n_regiao_do_corpo = n_distinct(regiao_do_corpo)
) %>%
arrange(desc(n_regiao_do_corpo)) %>%
slice_head(n = 15)
dados_regioes %>%
ggplot(aes(x = reorder(metabolitos, n_regiao_do_corpo), y = n_regiao_do_corpo)) +
geom_col(fill = "grey30") +
coord_flip() +
scale_y_continuous(
limits = c(0,12),
breaks = seq(0,12, by = 1),
expand = c(0,0)) +
labs(
title = "Gráfico 1.2 Contendo os 15 metabólitos com maiores quantidades de ocorrência em diferentes regiões do corpo independentemente da quantidade relatada nos artigos referenciados",
x = "metabolites",
y = "number of occurrence") +
theme_classic()
Conforme relatado anteriormente, inicialmente foram contabilizadas 1415 observações, representando os metabólitos. No entanto, esse valor sofre alteração, uma vez que considera a repetição de metabólitos associados a diferentes regiões do corpo, além de não levar em conta a quantidade absoluta reportada para cada metabólito. Após a aplicação de uma etapa de filtragem, foram contabilizadas 989 observações, correspondentes a metabólitos distintos referenciados nos artigos de revisão.
Dentre esses metabólitos, aproximadamente 15,67% aparecem mais de uma vez nos artigos analisados. Dessa forma, buscou-se avaliar se os metabólitos que apresentaram maior recorrência também apresentaram maior peso em determinadas regiões do corpo [verificar qual foi a região do corpo em que o metabólito em específico foi mais relatado].
utilizando os metabólitos listados no gráfico 1.2, foi utilizado um comando para identificar, quais regiões do corpo estavam associadas a cada metabólito, além da quantidade em que foram associadas. [foi utilizado como exemplo a phenylalanine]
dados %>%
filter(metabolitos == "phenylalanine") %>%
group_by(regiao_do_corpo) %>%
summarise(total = sum(quantidade, na.rm = TRUE)) %>%
arrange(desc(total))
## # A tibble: 12 × 2
## regiao_do_corpo total
## <chr> <int>
## 1 thyroid 5
## 2 prostate 4
## 3 pancreas 3
## 4 kidney 2
## 5 ovary 2
## 6 bones 1
## 7 breast 1
## 8 head_and_neck 1
## 9 lung 1
## 10 mouth 1
## 11 several 1
## 12 uterus 1
total <- dados %>%
filter(metabolitos == "phenylalanine") %>%
group_by(regiao_do_corpo) %>%
summarise(total = sum(quantidade, na.rm = TRUE)) %>%
arrange(desc(total))
View(total)
Observou-se que, de maneira quase unânime, Tireoide, Próstata e Pâncreas foram as regiões com maior recorrência de metabólitos. Além disso, Ovário e Rim também apresentaram recorrência de metabólitos significativa. Com base nessa observação,levantada a quantidade total de metabólito relatado em cada região do corpo.
metabolitos_por_regiao <- dados %>%
group_by(regiao_do_corpo) %>%
summarise(
total_metabolitos = sum(quantidade, na.rm = TRUE)
) %>%
arrange(desc(total_metabolitos))
metabolitos_por_regiao %>%
ggplot(aes(
x = total_metabolitos,
y = reorder(regiao_do_corpo, total_metabolitos)
)) +
geom_col(fill = "grey30") +
scale_x_continuous(
limits = c(0, 345),
breaks = seq(0, 345, by = 25),
expand = c(0, 0)) +
labs(
title = "Gráfico 1.3 contendo as informações da quantidade de metabólitos por região",
x = "Number of occurrences",
y = "Body region"
) +
theme_classic(base_size = 13)
A partir dessa tabela, foi possível concluir que as três regiões com maior recorrência (tireoide, próstata e pâncreas) concentram 47,76% dos metabólitos relatados no conjunto total de dados. Adicionalmente, as regiões de ovário e rim, que também apresentaram alta recorrência, representam conjuntamente 25,10% do total de metabólitos encontrados. Dessa forma, as cinco regiões mais citadas concentram 72,86% de todos os metabólitos relatados nos artigos analisados.
Com o intuito de “diminuir” esse viés da literatura, ocassionado da maior concentração de estudos em determinadas regiões do corpo, o que pode dar um “peso” para o número de metabólitos associados a essas regiões, então foram selecionadas os 15 metabólitos com maior ocorrência e as cinco regiões com maior número de metabólitos. Em seguida, foi construída uma tabela na qual os dados foram normalizados, dividindo-se a quantidade de vezes que cada metabólito foi citado em uma determinada região pelo total de metabólitos citados nessa mesma região. Esse procedimento permitiu identificar quais metabólitos apresentaram maior “relevância” relativa dentro de cada uma das cinco regiões mais citadas. Por fim, para facilitar a interpretação e a visualização dos resultados, foi construído um heatmap, possibilitando uma visualização comparativa mais clara das associações entre metabólitos e regiões do corpo
dadosheatmap <- read.csv2("dados7-1.csv")
View(dadosheatmap)
dadosheatmap <- as.data.frame(dadosheatmap)
rownames(dadosheatmap) <- dadosheatmap[,1]
dadosheatmap <- dadosheatmap[,-1]
matrizheat <- as.matrix(dadosheatmap)
pheatmap(
matrizheat,
scale = "none",
cluster_rows = TRUE,
cluster_cols = TRUE,
color = colorRampPalette(c("blue", "white", "red"))(100),
fontsize_row = 10,
fontsize_col = 10,
angle_col = 45,
main = "Heatmap comparando as regiões mais citadas X metabólitos com maior frequência nos artigos"
)
De modo geral, observa-se que o pâncreas apresenta as maiores intensidades para diversos metabólitos quando comparado às demais regiões. Destaca-se especialmente o tryptophan, que, dentre todos os metabólitos analisados, apresenta a maior intensidade específica no pâncreas, evidenciada pela coloração vermelha mais intensa. Esse comportamento pode indicar uma forte associação relativa desse metabólito com essa região, mesmo após a correção do viés de quantidade total de metabólitos. Ainda no pâncreas, metabólitos como Glutamate e phenylalanine, destacaram-se pela alta intensidade, porém um pouco menor que a do tryptophan, além de glycine, taurine, choline, citrate e creatine apresentam intensidades intermediárias, representadas por tons entre azul claro e branco suave, sugerindo uma recorrência relevante, embora inferior à observada para o triptofano. No rim, observa-se um comportamento distinto. De forma geral, a maioria dos metabólitos apresenta baixa intensidade, predominando tons azulados. No entanto, a glycine se destaca nessa região, apresentando uma intensidade relativamente elevada, evidenciada por um tom mais quente em comparação aos demais metabólitos no rim. Embora essa intensidade seja inferior à observada para o tryptophan no pâncreas, ainda assim indica uma associação relevante da glycine com essa região específica.
O ovário, nota-se que praticamente todos os metabólitos analisados apresentam baixa intensidade, com predominância de tons azul escuro. sugerindo que, dentro do conjunto de dados analisado e após a normalização, os metabólitos que se destaquem significativamente nessa região não estão de maneira acentuada nessa região quando comparada às demais.
Em relação à tireoide, observa-se uma distribuição homogênea dos metabólitos no qual apresentam intensidades semelhantes entre si, sem que haja um destaque acentuado de um metabólito específico. Já na próstata, nota-se um padrão distinto, no qual citrate, choline, valine e glycine apresentam intensidades intermediárias, enquanto os demais metabólitos exibem intensidades menores.
Apartir disso foi criado uma tabela, com três colunas onde cada linha representa um artigo, as colunas foram preenchidas de acordo com a região do corpo, tipo de amostra e quantidade de amostra, porém a quantidade de amostra deve quer ser removida pois alguns artigos apresentaram mais de um tipo de amostra e a quantidade geral das amostras, por isso não teve como fazer uma análise quantitativa dos dados. Passada essa situação foi possível elencar algumas informações importantes, apresentadas a seguir:
dados2 <-read.csv2("dados5art(2).csv")
View(dados2)
## **Quantidade do tipo de amostra por região do corpo**
amostra_mais_utilizadas <- dados2 %>%
group_by(regiao_do_corpo, tipo_de_amostra) %>%
summarise(frequencia = n(), .groups = "drop") %>%
arrange(desc(frequencia))
View(amostra_mais_utilizadas)
kable(head(amostra_mais_utilizadas, n = 10))
| regiao_do_corpo | tipo_de_amostra | frequencia |
|---|---|---|
| ovary | plasma | 10 |
| prostate | urine | 9 |
| thyroid | tissue | 9 |
| adrenal_gland | urine | 8 |
| ovary | serum | 8 |
| prostate | serum | 8 |
| kidney | tissue | 6 |
| ovary | tissue | 6 |
| kidney | urine | 5 |
| lung | plasma | 5 |
## **Quantidade do tipo de amostra, utilizados no geral**
amostra_mais_utilizadas2 <- dados2 %>%
group_by(tipo_de_amostra) %>%
summarise(frequencia = n(), .groups = "drop") %>%
arrange(desc(frequencia))
View(amostra_mais_utilizadas2)
kable(head(amostra_mais_utilizadas2, n = 10))
| tipo_de_amostra | frequencia |
|---|---|
| tissue | 60 |
| urine | 42 |
| serum | 38 |
| plasma | 34 |
| blood | 10 |
| image | 4 |
| saliva | 4 |
| feces | 3 |
| hair | 2 |
| Cerebrospinal Fluid | 1 |
## **Quantidade de artigos referenciados por região do corpo**
frequencia_por_regiao <- amostra_mais_utilizadas %>%
group_by(regiao_do_corpo) %>%
summarise(
total_frequencia = sum(frequencia, na.rm = TRUE),
.groups = "drop"
) %>%
arrange(desc(total_frequencia))
View(frequencia_por_regiao)
kable(head(frequencia_por_regiao))
| regiao_do_corpo | total_frequencia |
|---|---|
| ovary | 36 |
| prostate | 26 |
| thyroid | 23 |
| lung | 18 |
| breast | 15 |
| adrenal_gland | 14 |
amostra_mais_utilizadas3 <- amostra_mais_utilizadas2 %>% slice_head(n = 14)
amostra_mais_utilizadas3 %>%
ggplot(aes(x = reorder(tipo_de_amostra, frequencia), y = frequencia)) +
geom_col(fill = "grey30") +
scale_y_continuous(
limits = c(0,60),
breaks = seq(0, 60, by = 10),
expand = c(0,0)
) +
labs(
title = "Gráfico 1.5 os dez tipos de amostras mais utilizados no geral, em artigos referenciados",
x = "sample type",
y = "frequency"
) +
theme_classic()
frequencia_por_regiao %>%
ggplot(aes(
y = reorder(regiao_do_corpo, total_frequencia),
x = total_frequencia
)) +
geom_col(fill = "grey30") +
scale_x_continuous(
limits = c(0, 36),
breaks = seq(0, 36, by = 1),
expand = c(0, 0)
) +
labs(
title = "Gráfico 1.6 Os dez tipos de amostras mais utilizados no geral, em artigo referenciados",
x = "Frequency",
y = "region of the body"
) +
theme_classic()
Destaca-se a grande quantidade de trabalhos, sobre o ovário, seguido por Tireoide, Próstata e pulmão.
Apartir de agora foi feita uma nova análise, onde foi feita uma nova filtragem, onde foi contabilizado somente os artigos que utilizaram como grupo de amostra pacientes com tumores benignos, após essa seleção, foi gerado uma tabela com 91 observações, porém como já discutido anteriormente, ela leva em conta repetições, então após a exclusão de repetições, em que foram contabilizados essa repetição como frequência reduzindo para 76 observações.
dados3 <- read.csv2("dados6art - Copia.csv")
metabolitos_mais_utilizados <- dados3 %>%
group_by(metabolito) %>%
summarise(total= sum(Quantidade, na.rm = TRUE)) %>%
arrange(desc(total))
regiao_do_corpo <- dados3 %>%
group_by(regiao_do_corpo) %>%
summarise(total = sum(Quantidade, na.rm = TRUE)) %>%
arrange(desc(total))
metabolitos_top15<- metabolitos_mais_utilizados %>% slice_head(n = 15)
metabolitos_top15 %>%
ggplot(aes(x = reorder(metabolito, total), y = total)) +
geom_col(fill = "grey30") +
coord_flip() +
scale_y_continuous(
limits = c(0, 8),
breaks = seq(0,8, by = 1),
expand = c(0, 0)
) +
labs(
title = "Gráfico 1.7 Os quinze metabólitos referenciados com maior quantidade, onde foi utilizado somente [tumor benigno]",
x = "Metabolites",
y = "amount"
) +
theme_classic()
regioes_diferentes <- dados3 %>%
group_by(metabolito) %>%
summarise(n_regiao_do_corpo = n_distinct(regiao_do_corpo)) %>%
arrange(desc(n_regiao_do_corpo))
Evidênciou a pouca produção cinetífica á respeito do metabólitos deferenciadores de tumor benigno. Apartir disso foi realizada uma comparação entre os 15 metabólitos com maior recorrência entre os artigos referenciados utilizando como grupo de estudo pacientes com tumor maligno e cancerigeno(bn_ca) com o que utilizou somente grupo com pacientes com tumor
p1 <- dados_total %>%
ggplot(aes(x = reorder(metabolitos, total), y = total)) +
geom_col(fill = "grey30") +
coord_flip() +
scale_y_continuous(
limits = c(0, 25),
breaks = seq(0, 25, by = 1),
expand = c(0, 0)
) +
labs(
x = "metabolites",
y = "number of occurrence"
) +
theme_classic()
p2 <- metabolitos_top15 %>%
ggplot(aes(x = reorder(metabolito, total), y = total)) +
geom_col(fill = "grey30") +
coord_flip() +
scale_y_continuous(
limits = c(0, 25),
breaks = seq(0,25, by = 1),
expand = c(0, 0)
) +
labs(
x = "Metabolites",
y = "number of occurrence"
) +
theme_classic()
p1 + p2 +
plot_annotation(
title = "Comparação entre os 'tops 15' metabólitos: à esquerda estudos com grupo CA, à direita BN_CA."
)
```
Para finalizar foi feita uma comparação entre os metabólitos presentes nos artigos que utilizaram como grupo de estudo somente BN e o artigos que utilizaram grupos BN_CA, a fim de verificar quais foram os metabólitos em comun dentre os dois tipos de estudos.
dados1bn <- read.csv2("dados6art - Copia.csv")
dados2cabn <- read_excel("dados_sem_BN.xlsx")
metabolitos_em_comun <- intersect(dados1bn$metabolito, dados2cabn$metabolitos)
print(metabolitos_em_comun)
## [1] "cortisol" "tetrahydro-cortisone"
## [3] "etiocholanolone" "pregnenediol"
## [5] "pregnanediol" "pregnanetriol"
## [7] "tetrahydro-11-deoxycortisol" "acetate"
## [9] "adenosine" "alanine"
## [11] "arginine" "ascorbate"
## [13] "aspartate" "choline"
## [15] "creatine" "galactosylceramide"
## [17] "glucose" "glutamate"
## [19] "glutamine" "glutathione"
## [21] "hydroxybutyrate" "isoleucine"
## [23] "lactate" "myo-inositol"
## [25] "n-acetylaspartate" "n-acetyl-lysine"
## [27] "phosphocholine" "phosphoethanolamine"
## [29] "scyllo-inositol" "taurine"
## [31] "threonine" "total choline"
## [33] "valine" "thymine"
## [35] "dihydrothymine" "lipid"
## [37] "cysteine" "glycine"
## [39] "oxalic acid" "lactose"
## [41] "pyruvate" "inosine"
## [43] "4-aminobutyric acid" "coline"
## [45] "tyrosine" "lysine"
## [47] "citrate" "naa"
View(metabolitos_em_comun)
tabela_resultado <- data.frame(metabolitos_em_comum = metabolitos_em_comun)
De modo geral, as análises exploratórias permitiram identificar a frequência de relato dos metabólitos na literatura, bem como estabelecer associações entre metabólitos e regiões do corpo. Observou-se também a presença de possíveis vieses na literatura relacionados à predominância de determinadas regiões do corpo e tipos de amostras.
Além da quantificação global dos tipos de amostras, foram realizadas análises por região do corpo. Posteriormente, os artigos foram filtrados de acordo com os grupos avaliados (BN e BN_CA), aplicando-se as mesmas análises utilizadas no conjunto geral, o que evidenciou uma produção científica ainda limitada voltada à identificação de potenciais metabólitos biomarcadores para tumores benignos.
Também foram identificados metabólitos em comum entre os dois grupos analisados. Adicionalmente, verificou-se que todos os estudos relacionados ao cérebro e à glândula pituitária incluíram exclusivamente grupos de pacientes com tumores benignos.