随着高通量技术的发展以及测序成本的降低,扩增子测序作为宏基因组调查手段越来越受到老师的欢迎.对于 16S 扩增子来说,注释数据库有 SILVA1 ,RDP2 , Greengenes3 等多种选择.

百迈客生物科技有限公司16S 扩增子测序分析使用的是最新的SILVA128数据库,下面小编就要回答一下为什么要使用这一数据库.

1 简介

1.1 SILVA

SILVA一词起源于拉丁文silva(意为forest),它是一个包含三域微生物(细菌、古菌、真核)rRNA基因序列的综合数据库,其数据库涵盖了原核和真核微生物的小亚基rRNA基因序列(简称SSU,即16S和18SrRNA)和大亚基rRNA基因序列(简称LSU,即23S和28SrRNA)。

1.2 RDP

RDP数据库全称“RibosomalDatabase Project”,该数据库提供质控、比对、注释的细菌、古菌16S rRNA基因和真菌28S rRNA基因序列。

1.3 Greengenes

Greengenes是专门针对细菌、古菌16S rRNA基因的数据库,相比前面提到的RDP和SILVA数据库,该数据库更新速度较慢,目前更新停留在2013年5月更新的gg_13_5版本。

2 最近更新时间

数据库 最近更新时间 最新版本
SILVA 2016年9月29日 SILVA128
RDP 2016年9月30日 Release 11
Greengenes 2013年5月 gg_13_5

从更新时间角度来说,SILVARDP 更及时.

3 收录序列条数

数据库 SSU 序列数 16S 序列条数(0.97相似性4 )
SILVA128 5,616,941 166,298
RDP11 3,356,808 -
Greengenes13_5 - 99,322

从收录序列角度来说,SILVA 更丰富.

4 16S 数据库可视化

基于各数据库最新版本细菌数据,利用 R 包 metacoder5,绘制进化树

4.1 SILVA

4.2 RDP

4.3 Greengenes

可以明确的看出 SILVA 树要更"茂盛".

5 总结

  1. SILVA 数据库更新更及时,序列更丰富;
  2. 从以上比较情况来看,SILVA 数据库表现更好;

6 参考说明


  1. SILVA主页

  2. RDP主页

  3. Greengenes主页

  4. 这里统计的是数据库按照0.97序列相似性的OTU序列数

  5. metacoder_documentation