数据存放文件夹必须命名为POS或者NEG。
sample.info的两列列名必须是sample.name和group。
如果有正负离子模式数据,必须保证正负离子模式的样品名完全相同。
MetDNA需要准备的数据包括一级数据peak table(csv格式),二级数据(mgf格式或者msp)和样品信息sample.info(csv格式)。点击下载正离子demo数据和负离子demo数据。
如果正负离子模式数据都有,最后想使用正负离子模式的鉴定结果进行pathway分析,那么需要保证正负离子模式的样品名称保持一致,也就是同一个样品在正负离子模式数据中一样
Table 1: demo数据信息
| 组别 | 个数 | 含义 |
|---|---|---|
| QC | 8 | QC |
| W03 | 10 | 野生型3天 |
| W30 | 10 | 野生型30天 |
| E03 | 10 | 突变型E3天 |
| E30 | 10 | 突变型E30天 |
| P03 | 10 | 突变型P3天 |
| P30 | 10 | 突变型P30天 |
一级数据可以是使用XCMS,MZmine,MS-DIAL或者其他软件处理之后的数据。第一列必须为代谢物峰的名字,“name”,第二列为“mz”,第三列为保留时间(RT),且单位必须为秒,其他为样品的峰强度,除此之外不需要其他任何信息,且前三列命名必须为“name”,“mz”, “rt”。
Figure 1: 一级数据peak table格式示例
二级质谱原始数据可以是使用样品采集的DDA,DIA或者targeted MS/MS数据。对于DDA数据来说,也可以是分段采集的二级数据。对于DDA和targeted MS/MS数据来说,需要将质谱原始二级数据使用ProteoWizard软件转为mgf格式,转换时参数设置参考下图。对于DIA数据来说,可以使用MS-DIAL处理之后,将其输出的msp格式文件直接拿来使用。
Figure 2: ProteoWizard参数设置
样品信息是样品的分组信息。第一列是样品名,命名为,“sample.name”,第二列是样品的分组信息,命名为,“group”。样品信息为csv文件,命名为sample.info.csv。
Figure 3:样品信息示例
如果是正离子数据,请建立一个新的文件夹,命名为“POS”,如果是负离子数据,请建立一个新的文件夹命名为“NEG”,然后将一级数据(必须命名为data.csv),二级数据(mgf或者msp格式)和样品信息(必须命名为sample.info.csv)放置于此文件夹下。并将该文件夹设置为路径。现在MetDNA部署在小服务器上,因此需要将数据放在小服务器中(注意是labdata文件夹)。
Figure 4: 将所需数据放置在文件夹中
所有的步骤可以使用一个函数MetDNA全部完成。如果只有一个模式的数据,那么MetDNA应该将所有的步骤运行完,如果有两个模式的数据,则对于每个模式来说,后面的紊乱网络分析和生成分析报告不需要进行,可以正负离子模式结合在一起进行紊乱网络分析和生成分析报告。
#设置工作路径并加载MetDNA
setwd("/mnt/data/samba/labdata/workreport/Shen Xiaotao/demo/fly/POS")
library(MetDNA)
MetDNA(polarity = "positive",
column = "hilic",
ce = "30",
use.default.md = TRUE,
threads = 3,
group = c("W03", "W30"),
uni.test = "t",
correct = TRUE,
p.cutoff = 0.01,
species = "dme",
dn.analysis = FALSE)
参数含义如下:
polarity:数据采集极性,“positive”,“negative”或者“both”。
column:使用的柱子类型,“hilic”或者“rp”。
ce:二级采集的碰撞能量,支持“10”,“15”,“20”,“25”,“30”,“35”,“35,15” (35±15),“40”, “45”,“50”,“55”,“60”,“65”,“70”。
use.default.md:进行保留时间预测模型建立时,是否使用默认的分子描述符,如果设置为FALSE,则会根据你的数据自动选择分子描述符。
threads:使用线程数,默认为3,可以根据电脑本身配置进行修改。
group:要对哪些分组的样品进行分析,注意,计算fold change时,使用后面的样品除以前面的样品。
uni.test:单变量分析的方法,“t”,Student t test;“wilcox”,Wilcox test。
correct:是否需要对p值进行FDR校正。
p.cutoff:选择dysregulated peak时的p值cutoff。
species:所研究样品的物种来源,“dme”,果蝇;“hsa”,人类;“mmu”,小鼠;“rat”,大鼠,“bta”,牛;“gga”,Gallus gallus (鸡);“dre”,Danio rerio (斑马鱼);“cel”,Caenorharomyces elegans (线虫);“sce”,Saccharomyces cerevisaiae (酵母); “ath”,Arabidopsis thaliana (拟南芥);“smm”,Schistosoma mansoni;“pfa”,Plasmodum falciparum 3D7;“tbr”,Trypanosoma brucei;“eco”, Escherichia coli K-12 MG1655(大肠杆菌);“ppu”,Pseudomonas putida KT2440;“syf”,Synechococcus elongatus。
dn.analysis:是否进行紊乱网络分析,如果正负离子模式数据都有,那么需要将其设置为FALSE,如果只有一个模式的数据,那么设置为TRUE。
因为现在只能对两组数据进行比较,因此group参数只能写两个,如果有三组数据,如A,B和C组,那么需要分来两次处理,第一次先比较A和B,即将group设置为c(“A”, “B”),然后运行MetDNA,然后将已经得到的结果中的“Dysregulated_network_analysis_result”和“Analysis_report”重新命名,否则下次运行这两个文件夹中的内容会被覆盖掉,然后将group设置为c(“A”, “C”),然后再次运行MetDNA。
如果只有一个模式的数据,那么dn.analysis参数设置为TRUE,如果正负离子模式数据都有,那么需要将其设置为FALSE。
正负离子分别处理之后,可以合并正负离子模式的鉴定结果,进行dysregulated network analysis。直接运行运行函数MetDNA。。
MetDNA(polarity = "both",
column = "hilic",
threads = 3,
group = c("W03", "W30"),
uni.test = "t",
correct = TRUE,
p.cutoff = 0.01,
species = "dme",
dn.analysis = TRUE)
MetDNA函数运行结束之后,所有的运行结果都存放在设置的路径中,包含二级谱图匹配鉴定结果,MRN注释结果,dysregulated network分析结果以及分析报告。如图5所示。
Figure 5: 运行结果
ms2.match.annotation.result.csv:二级谱图匹配之后的结果,与MetAnalyzer处理之后的结果相同;
MS2_match_spectra:包含了所有二级谱图匹配结果图。
MRN.annotation.result.csv:基于MRN的每一个peak的注释结果(Figure 6)。
Seed_Neighbor_MS2_match_spectra:包含的是每个Seed和他neighbor之间的二级谱图匹配结果。
Figure 6: MRN annotation result
Annotation.type:该peak的该注释的类型,其中seed代表是从二级谱图鉴定得到的,isotopeAnnotation是指是同位素峰注释得到的,adductAnnotation是指加合物峰注释得到的,metAnnotation是指邻近代谢物注释得到的;
Figure 7: MRN annotation result
Cytoscape_data:dysregulated network用于cytoscape作图的文件。
Dysregulated_network_boxplot:每个pathway的定量信息box plot。
Dysregulated_network_heatmap:每个pathway的定量信息heatmap。
Dysregulated_network_heatmap:每个pathway的定量信息heatmap。
Quantitative_information:pathway的定量信息,以及每个代谢物对应的peak的信息。
DNA.pathway.enrichmetn.result.csv:dysregulated network通路富集结果。