Instruction of MetDNA (version 0.99.10)

Xiaotao Shen, Zhengjiang Zhu

2017-09-25


问题报告

如果有任何问题出现,请点击此处给我留言。留言要包括下面三个部分:

常见错误总结


MetDNA处理步骤

MetDNA一共处理过程一共分为了以下几个步骤:

  • 数据检查;

  • 二级谱图匹配:使用标准二级谱图数据库进行鉴定;

  • 基于代谢反应网络的代谢物鉴定;

  • 紊乱网络分析;

  • 生成分析报告。


Ⅰ数据准备

MetDNA需要准备的数据包括一级数据peak table(csv格式),二级数据(mgf格式或者msp)和样品信息sample.info(csv格式)。点击下载正离子demo数据负离子demo数据

注意:

如果正负离子模式数据都有,最后想使用正负离子模式的鉴定结果进行pathway分析,那么需要保证正负离子模式的样品名称保持一致,也就是同一个样品在正负离子模式数据中一样

Table 1: demo数据信息

组别 个数 含义
QC 8 QC
W03 10 野生型3天
W30 10 野生型30天
E03 10 突变型E3天
E30 10 突变型E30天
P03 10 突变型P3天
P30 10 突变型P30天

1. 一级数据(data.csv)

一级数据可以是使用XCMS,MZmine,MS-DIAL或者其他软件处理之后的数据。第一列必须为代谢物峰的名字,“name”,第二列为“mz”,第三列为保留时间(RT),且单位必须为秒,其他为样品的峰强度,除此之外不需要其他任何信息,且前三列命名必须为“name”,“mz”, “rt”

Figure 1: 一级数据peak table格式示例

Figure 1: 一级数据peak table格式示例

2. 二级数据

二级质谱原始数据可以是使用样品采集的DDA,DIA或者targeted MS/MS数据。对于DDA数据来说,也可以是分段采集的二级数据。对于DDA和targeted MS/MS数据来说,需要将质谱原始二级数据使用ProteoWizard软件转为mgf格式,转换时参数设置参考下图。对于DIA数据来说,可以使用MS-DIAL处理之后,将其输出的msp格式文件直接拿来使用。

Figure 2: ProteoWizard参数设置

Figure 2: ProteoWizard参数设置

3. 样品信息(sample.info)

样品信息是样品的分组信息。第一列是样品名,命名为,“sample.name”,第二列是样品的分组信息,命名为,“group”。样品信息为csv文件,命名为sample.info.csv。

Figure 3:样品信息示例

Figure 3:样品信息示例


Ⅱ 数据整理

如果是正离子数据,请建立一个新的文件夹,命名为“POS”,如果是负离子数据,请建立一个新的文件夹命名为“NEG”,然后将一级数据(必须命名为data.csv),二级数据(mgf或者msp格式)和样品信息(必须命名为sample.info.csv)放置于此文件夹下。并将该文件夹设置为路径。现在MetDNA部署在小服务器上,因此需要将数据放在小服务器中(注意是labdata文件夹)

Figure 4: 将所需数据放置在文件夹中

Figure 4: 将所需数据放置在文件夹中


Ⅲ 数据处理

1. 只对正离子或者负离子处理

所有的步骤可以使用一个函数MetDNA全部完成。如果只有一个模式的数据,那么MetDNA应该将所有的步骤运行完,如果有两个模式的数据,则对于每个模式来说,后面的紊乱网络分析和生成分析报告不需要进行,可以正负离子模式结合在一起进行紊乱网络分析和生成分析报告。

运行函数MetDNA

#设置工作路径并加载MetDNA
setwd("/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly/POS")
library(MetDNA)
MetDNA(polarity = "positive",
       column = "hilic",
       ce = "30",
       use.default.md = TRUE,
       threads = 3,
       group = c("W03", "W30"),
       uni.test = "t",
       correct = TRUE,
       p.cutoff = 0.01,
       species = "dme",
       dn.analysis = FALSE)

参数含义如下:

  • polarity:数据采集极性,“positive”,“negative”或者“both”。

  • column:使用的柱子类型,“hilic”或者“rp”。

  • ce:二级采集的碰撞能量,支持“10”,“15”,“20”,“25”,“30”,“35”,“35,15” (35±15),“40”, “45”,“50”,“55”,“60”,“65”,“70”。

  • use.default.md:进行保留时间预测模型建立时,是否使用默认的分子描述符,如果设置为FALSE,则会根据你的数据自动选择分子描述符。

  • threads:使用线程数,默认为3,可以根据电脑本身配置进行修改。

  • group:要对哪些分组的样品进行分析,注意,计算fold change时,使用后面的样品除以前面的样品。

  • uni.test:单变量分析的方法,“t”,Student t test;“wilcox”,Wilcox test。

  • correct:是否需要对p值进行FDR校正。

  • p.cutoff:选择dysregulated peak时的p值cutoff。

  • species:所研究样品的物种来源,“dme”,果蝇;“hsa”,人类;“mmu”,小鼠;“rat”,大鼠,“bta”,牛;“gga”,Gallus gallus (鸡);“dre”,Danio rerio (斑马鱼);“cel”,Caenorharomyces elegans (线虫);“sce”,Saccharomyces cerevisaiae (酵母); “ath”,Arabidopsis thaliana (拟南芥);“smm”,Schistosoma mansoni;“pfa”,Plasmodum falciparum 3D7;“tbr”,Trypanosoma brucei;“eco”, Escherichia coli K-12 MG1655(大肠杆菌);“ppu”,Pseudomonas putida KT2440;“syf”,Synechococcus elongatus。

  • dn.analysis:是否进行紊乱网络分析,如果正负离子模式数据都有,那么需要将其设置为FALSE,如果只有一个模式的数据,那么设置为TRUE。

注意:

  • 因为现在只能对两组数据进行比较,因此group参数只能写两个,如果有三组数据,如A,B和C组,那么需要分来两次处理,第一次先比较A和B,即将group设置为c(“A”, “B”),然后运行MetDNA,然后将已经得到的结果中的“Dysregulated_network_analysis_result”和“Analysis_report”重新命名,否则下次运行这两个文件夹中的内容会被覆盖掉,然后将group设置为c(“A”, “C”),然后再次运行MetDNA

  • 如果只有一个模式的数据,那么dn.analysis参数设置为TRUE,如果正负离子模式数据都有,那么需要将其设置为FALSE。

2. 对正负数据合并分析

正负离子分别处理之后,可以合并正负离子模式的鉴定结果,进行dysregulated network analysis。直接运行运行函数MetDNA。。

MetDNA(polarity = "both",
       column = "hilic",
       threads = 3,
       group = c("W03", "W30"),
       uni.test = "t",
       correct = TRUE,
       p.cutoff = 0.01,
       species = "dme",
       dn.analysis = TRUE)

注意:

  • 参数含义可以参考上文,其中polarity必须设置为“both”

  • group的设置和注意事项也请参考上文。

  • dn.analysis需要设置为TRUE


Ⅳ 运行结果

MetDNA函数运行结束之后,所有的运行结果都存放在设置的路径中,包含二级谱图匹配鉴定结果,MRN注释结果,dysregulated network分析结果以及分析报告。如图5所示。

Figure 5: 运行结果

Figure 5: 运行结果

1 MetDNA.parameters.csv

记录此次运行所使用的参数。

2 MS2_match_result (二级谱图匹配结果)

  • ms2.match.annotation.result.csv:二级谱图匹配之后的结果,与MetAnalyzer处理之后的结果相同;

  • MS2_match_spectra:包含了所有二级谱图匹配结果图。

3 MRN_annotation_result (基于metabolic reacion network注释结果)

  • MRN.annotation.result.csv:基于MRN的每一个peak的注释结果(Figure 6)。

  • Seed_Neighbor_MS2_match_spectra:包含的是每个Seed和他neighbor之间的二级谱图匹配结果。

Figure 6: MRN annotation result

Figure 6: MRN annotation result

MRN.annotation.result.csv其中的一些列的含义:

  • Annotation.type:该peak的该注释的类型,其中seed代表是从二级谱图鉴定得到的,isotopeAnnotation是指是同位素峰注释得到的,adductAnnotation是指加合物峰注释得到的,metAnnotation是指邻近代谢物注释得到的;

  • annotation.from.ID:该peak的该注释来自于哪个metabolite(ID);

  • annotation.from.peak:该peak的该注释来自于哪个peak;

  • ID:注释代谢物结果的KEGG ID;

  • compound.name:注释结果的名字;

  • isotope:同位素信息;

  • adduct:加合物信息;

  • Formula:化学结构式;

  • score:注释打分;

  • peak.group:peak group;

  • confidence:对注释的peak group打分。

4 Dysregulated_network_analysis_result

  1. volcano.plot是选取差异代谢物峰的火山图。每个代谢物峰的p值和fold change值可以从DNA.module.annotation.result.pos.csv中得到,或者在intermediate_data文件夹中有两个R文件,分别是p.value和fold.change。

  1. DNA.module.annotation.result.pos.csv是通过dysregulated modules对注释结果进行筛选以及KEGG database注释之后的注释结果。其中每列的含义可以参考MRN.annotation.result.csv的说明。

  1. DNA_module_information:module的一些结果,该文件夹结果暂时用不到,可以不看。

  1. DNA_function_annotation:紊乱网络的定性分析和定量分析结果。具体内容如下:

Figure 7: MRN annotation result

Figure 7: MRN annotation result

  • Cytoscape_data:dysregulated network用于cytoscape作图的文件。

  • Dysregulated_network_boxplot:每个pathway的定量信息box plot。

  • Dysregulated_network_heatmap:每个pathway的定量信息heatmap。

  • Dysregulated_network_heatmap:每个pathway的定量信息heatmap。

  • Quantitative_information:pathway的定量信息,以及每个代谢物对应的peak的信息。

  • DNA.pathway.enrichmetn.result.csv:dysregulated network通路富集结果。

Analysis_report

对数据处理分析结果的总结。输出的结果存放在Analysis_report文件夹内。包括一份html格式的分析报告