Instruction of MetDNA (version 0.99.10)

Xiaotao Shen, Zhengjiang Zhu

2017-09-25

问题报告

如果有任何问题出现，请点击此处给我留言。留言要包括下面三个部分：

处理文件地址；
运行的代码截图；
出现问题的报错信息截图。

常见错误总结

数据存放文件夹必须命名为POS或者NEG。
sample.info的两列列名必须是sample.name和group。
如果有正负离子模式数据，必须保证正负离子模式的样品名完全相同。

MetDNA处理步骤

MetDNA一共处理过程一共分为了以下几个步骤：

数据检查；
二级谱图匹配：使用标准二级谱图数据库进行鉴定；
基于代谢反应网络的代谢物鉴定；
紊乱网络分析；
生成分析报告。

Ⅰ数据准备

MetDNA需要准备的数据包括一级数据peak table(csv格式)，二级数据(mgf格式或者msp)和样品信息sample.info(csv格式)。点击下载正离子demo数据和负离子demo数据。

注意：

如果正负离子模式数据都有，最后想使用正负离子模式的鉴定结果进行pathway分析，那么需要保证正负离子模式的样品名称保持一致，也就是同一个样品在正负离子模式数据中一样

Table 1: demo数据信息

组别	个数	含义
QC	8	QC
W03	10	野生型3天
W30	10	野生型30天
E03	10	突变型E3天
E30	10	突变型E30天
P03	10	突变型P3天
P30	10	突变型P30天

1. 一级数据(data.csv)

一级数据可以是使用XCMS，MZmine，MS-DIAL或者其他软件处理之后的数据。第一列必须为代谢物峰的名字，“name”，第二列为“mz”，第三列为保留时间(RT)，且单位必须为秒，其他为样品的峰强度，除此之外不需要其他任何信息，且前三列命名必须为“name”，“mz”， “rt”。

Figure 1: 一级数据peak table格式示例

2. 二级数据

二级质谱原始数据可以是使用样品采集的DDA，DIA或者targeted MS/MS数据。对于DDA数据来说，也可以是分段采集的二级数据。对于DDA和targeted MS/MS数据来说，需要将质谱原始二级数据使用ProteoWizard软件转为mgf格式，转换时参数设置参考下图。对于DIA数据来说，可以使用MS-DIAL处理之后，将其输出的msp格式文件直接拿来使用。

Figure 2: ProteoWizard参数设置

3. 样品信息(sample.info)

样品信息是样品的分组信息。第一列是样品名，命名为，“sample.name”，第二列是样品的分组信息，命名为，“group”。样品信息为csv文件，命名为sample.info.csv。

Figure 3：样品信息示例

Ⅱ 数据整理

如果是正离子数据，请建立一个新的文件夹，命名为“POS”，如果是负离子数据，请建立一个新的文件夹命名为“NEG”，然后将一级数据(必须命名为data.csv)，二级数据(mgf或者msp格式)和样品信息(必须命名为sample.info.csv)放置于此文件夹下。并将该文件夹设置为路径。现在MetDNA部署在小服务器上，因此需要将数据放在小服务器中(注意是labdata文件夹)。

Figure 4: 将所需数据放置在文件夹中

Ⅲ 数据处理

1. 只对正离子或者负离子处理

所有的步骤可以使用一个函数MetDNA全部完成。如果只有一个模式的数据，那么MetDNA应该将所有的步骤运行完，如果有两个模式的数据，则对于每个模式来说，后面的紊乱网络分析和生成分析报告不需要进行，可以正负离子模式结合在一起进行紊乱网络分析和生成分析报告。

运行函数MetDNA。

#设置工作路径并加载MetDNA
setwd("/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly/POS")
library(MetDNA)
MetDNA(polarity = "positive",
       column = "hilic",
       ce = "30",
       use.default.md = TRUE,
       threads = 3,
       group = c("W03", "W30"),
       uni.test = "t",
       correct = TRUE,
       p.cutoff = 0.01,
       species = "dme",
       dn.analysis = FALSE)

参数含义如下：

polarity：数据采集极性，“positive”，“negative”或者“both”。
column：使用的柱子类型，“hilic”或者“rp”。
ce：二级采集的碰撞能量，支持“10”，“15”，“20”，“25”，“30”，“35”，“35,15” (35±15)，“40”， “45”，“50”，“55”，“60”，“65”，“70”。
use.default.md：进行保留时间预测模型建立时，是否使用默认的分子描述符，如果设置为FALSE，则会根据你的数据自动选择分子描述符。
threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。
group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。
uni.test：单变量分析的方法，“t”，Student t test；“wilcox”，Wilcox test。
correct：是否需要对p值进行FDR校正。
p.cutoff：选择dysregulated peak时的p值cutoff。
species：所研究样品的物种来源，“dme”，果蝇；“hsa”，人类；“mmu”，小鼠；“rat”，大鼠，“bta”，牛；“gga”，Gallus gallus (鸡)；“dre”，Danio rerio (斑马鱼)；“cel”，Caenorharomyces elegans (线虫)；“sce”，Saccharomyces cerevisaiae (酵母)； “ath”，Arabidopsis thaliana (拟南芥)；“smm”，Schistosoma mansoni；“pfa”，Plasmodum falciparum 3D7；“tbr”，Trypanosoma brucei；“eco”， Escherichia coli K-12 MG1655(大肠杆菌)；“ppu”，Pseudomonas putida KT2440；“syf”，Synechococcus elongatus。
dn.analysis：是否进行紊乱网络分析，如果正负离子模式数据都有，那么需要将其设置为FALSE，如果只有一个模式的数据，那么设置为TRUE。

注意：

因为现在只能对两组数据进行比较，因此group参数只能写两个，如果有三组数据，如A，B和C组，那么需要分来两次处理，第一次先比较A和B，即将group设置为c(“A”, “B”)，然后运行MetDNA，然后将已经得到的结果中的“Dysregulated_network_analysis_result”和“Analysis_report”重新命名，否则下次运行这两个文件夹中的内容会被覆盖掉，然后将group设置为c(“A”, “C”)，然后再次运行MetDNA。
如果只有一个模式的数据，那么dn.analysis参数设置为TRUE，如果正负离子模式数据都有，那么需要将其设置为FALSE。

2. 对正负数据合并分析

正负离子分别处理之后，可以合并正负离子模式的鉴定结果，进行dysregulated network analysis。直接运行运行函数MetDNA。。

MetDNA(polarity = "both",
       column = "hilic",
       threads = 3,
       group = c("W03", "W30"),
       uni.test = "t",
       correct = TRUE,
       p.cutoff = 0.01,
       species = "dme",
       dn.analysis = TRUE)

注意：

参数含义可以参考上文，其中polarity必须设置为“both”。
group的设置和注意事项也请参考上文。
dn.analysis需要设置为TRUE。

Ⅳ 运行结果

MetDNA函数运行结束之后，所有的运行结果都存放在设置的路径中，包含二级谱图匹配鉴定结果，MRN注释结果，dysregulated network分析结果以及分析报告。如图5所示。

Figure 5: 运行结果

1 MetDNA.parameters.csv

记录此次运行所使用的参数。

2 MS2_match_result (二级谱图匹配结果)

ms2.match.annotation.result.csv：二级谱图匹配之后的结果，与MetAnalyzer处理之后的结果相同；
MS2_match_spectra：包含了所有二级谱图匹配结果图。

3 MRN_annotation_result (基于metabolic reacion network注释结果)

MRN.annotation.result.csv：基于MRN的每一个peak的注释结果(Figure 6)。
Seed_Neighbor_MS2_match_spectra：包含的是每个Seed和他neighbor之间的二级谱图匹配结果。

Figure 6: MRN annotation result

MRN.annotation.result.csv其中的一些列的含义：

Annotation.type：该peak的该注释的类型，其中seed代表是从二级谱图鉴定得到的，isotopeAnnotation是指是同位素峰注释得到的，adductAnnotation是指加合物峰注释得到的，metAnnotation是指邻近代谢物注释得到的；
annotation.from.ID：该peak的该注释来自于哪个metabolite(ID);
annotation.from.peak：该peak的该注释来自于哪个peak;
ID：注释代谢物结果的KEGG ID;
compound.name：注释结果的名字；
isotope：同位素信息；
adduct：加合物信息；
Formula：化学结构式；
score：注释打分；
peak.group：peak group；
confidence：对注释的peak group打分。

4 Dysregulated_network_analysis_result

volcano.plot是选取差异代谢物峰的火山图。每个代谢物峰的p值和fold change值可以从DNA.module.annotation.result.pos.csv中得到，或者在intermediate_data文件夹中有两个R文件，分别是p.value和fold.change。

DNA.module.annotation.result.pos.csv是通过dysregulated modules对注释结果进行筛选以及KEGG database注释之后的注释结果。其中每列的含义可以参考MRN.annotation.result.csv的说明。

DNA_module_information：module的一些结果，该文件夹结果暂时用不到，可以不看。

DNA_function_annotation：紊乱网络的定性分析和定量分析结果。具体内容如下：

Figure 7: MRN annotation result

Cytoscape_data：dysregulated network用于cytoscape作图的文件。
Dysregulated_network_boxplot：每个pathway的定量信息box plot。
Dysregulated_network_heatmap：每个pathway的定量信息heatmap。
Dysregulated_network_heatmap：每个pathway的定量信息heatmap。
Quantitative_information：pathway的定量信息，以及每个代谢物对应的peak的信息。
DNA.pathway.enrichmetn.result.csv：dysregulated network通路富集结果。

Instruction of MetDNA (version 0.99.10)

Xiaotao Shen, Zhengjiang Zhu

2017-09-25

问题报告

如果有任何问题出现，请点击此处给我留言。留言要包括下面三个部分：

处理文件地址；

运行的代码截图；

出现问题的报错信息截图。

常见错误总结

数据存放文件夹必须命名为POS或者NEG。

sample.info的两列列名必须是sample.name和group。

如果有正负离子模式数据，必须保证正负离子模式的样品名完全相同。

MetDNA处理步骤

MetDNA一共处理过程一共分为了以下几个步骤：

数据检查；

二级谱图匹配：使用标准二级谱图数据库进行鉴定；

基于代谢反应网络的代谢物鉴定；

紊乱网络分析；

生成分析报告。

Ⅰ数据准备

MetDNA需要准备的数据包括一级数据peak table(csv格式)，二级数据(mgf格式或者msp)和样品信息sample.info(csv格式)。点击下载正离子demo数据和负离子demo数据。

注意：

如果正负离子模式数据都有，最后想使用正负离子模式的鉴定结果进行pathway分析，那么需要保证正负离子模式的样品名称保持一致，也就是同一个样品在正负离子模式数据中一样

1. 一级数据(data.csv)

2. 二级数据

3. 样品信息(sample.info)

样品信息是样品的分组信息。第一列是样品名，命名为，“sample.name”，第二列是样品的分组信息，命名为，“group”。样品信息为csv文件，命名为sample.info.csv。

Ⅱ 数据整理

Ⅲ 数据处理

1. 只对正离子或者负离子处理

运行函数MetDNA。

polarity：数据采集极性，“positive”，“negative”或者“both”。

column：使用的柱子类型，“hilic”或者“rp”。

ce：二级采集的碰撞能量，支持“10”，“15”，“20”，“25”，“30”，“35”，“35,15” (35±15)，“40”， “45”，“50”，“55”，“60”，“65”，“70”。

use.default.md：进行保留时间预测模型建立时，是否使用默认的分子描述符，如果设置为FALSE，则会根据你的数据自动选择分子描述符。

threads：使用线程数，默认为3，可以根据电脑本身配置进行修改。

group：要对哪些分组的样品进行分析，注意，计算fold change时，使用后面的样品除以前面的样品。

uni.test：单变量分析的方法，“t”，Student t test；“wilcox”，Wilcox test。

correct：是否需要对p值进行FDR校正。

p.cutoff：选择dysregulated peak时的p值cutoff。

dn.analysis：是否进行紊乱网络分析，如果正负离子模式数据都有，那么需要将其设置为FALSE，如果只有一个模式的数据，那么设置为TRUE。

注意：

如果只有一个模式的数据，那么dn.analysis参数设置为TRUE，如果正负离子模式数据都有，那么需要将其设置为FALSE。

2. 对正负数据合并分析

正负离子分别处理之后，可以合并正负离子模式的鉴定结果，进行dysregulated network analysis。直接运行运行函数MetDNA。。

注意：

参数含义可以参考上文，其中polarity必须设置为“both”。

group的设置和注意事项也请参考上文。

dn.analysis需要设置为TRUE。

Ⅳ 运行结果

MetDNA函数运行结束之后，所有的运行结果都存放在设置的路径中，包含二级谱图匹配鉴定结果，MRN注释结果，dysregulated network分析结果以及分析报告。如图5所示。

1 MetDNA.parameters.csv

记录此次运行所使用的参数。

2 MS2_match_result (二级谱图匹配结果)

ms2.match.annotation.result.csv：二级谱图匹配之后的结果，与MetAnalyzer处理之后的结果相同；

MS2_match_spectra：包含了所有二级谱图匹配结果图。

3 MRN_annotation_result (基于metabolic reacion network注释结果)

MRN.annotation.result.csv：基于MRN的每一个peak的注释结果(Figure 6)。

Seed_Neighbor_MS2_match_spectra：包含的是每个Seed和他neighbor之间的二级谱图匹配结果。

MRN.annotation.result.csv其中的一些列的含义：

Annotation.type：该peak的该注释的类型，其中seed代表是从二级谱图鉴定得到的，isotopeAnnotation是指是同位素峰注释得到的，adductAnnotation是指加合物峰注释得到的，metAnnotation是指邻近代谢物注释得到的；

annotation.from.ID：该peak的该注释来自于哪个metabolite(ID);

annotation.from.peak：该peak的该注释来自于哪个peak;

ID：注释代谢物结果的KEGG ID;

compound.name：注释结果的名字；

isotope：同位素信息；

adduct：加合物信息；

Formula：化学结构式；

score：注释打分；

peak.group：peak group；

confidence：对注释的peak group打分。

4 Dysregulated_network_analysis_result

volcano.plot是选取差异代谢物峰的火山图。每个代谢物峰的p值和fold change值可以从DNA.module.annotation.result.pos.csv中得到，或者在intermediate_data文件夹中有两个R文件，分别是p.value和fold.change。

DNA.module.annotation.result.pos.csv是通过dysregulated modules对注释结果进行筛选以及KEGG database注释之后的注释结果。其中每列的含义可以参考MRN.annotation.result.csv的说明。

DNA_module_information：module的一些结果，该文件夹结果暂时用不到，可以不看。

DNA_function_annotation：紊乱网络的定性分析和定量分析结果。具体内容如下：

Cytoscape_data：dysregulated network用于cytoscape作图的文件。

Dysregulated_network_boxplot：每个pathway的定量信息box plot。

Dysregulated_network_heatmap：每个pathway的定量信息heatmap。

Dysregulated_network_heatmap：每个pathway的定量信息heatmap。