前一篇文章为大家介绍了在进行菌群多样性研究中的时候需要进行OTU的聚类,在聚类后选择OTU集中的OTU代表序列比对数据后就可以得到物种信息了。
但是,比对哪个数据库才能得到比较好的注释结果呢?今天我们就为大家介绍下在菌群多样性研究中常见的数据库,本篇介绍的仅为原核生物注释数据库,真核数据库后续会为的大家讲解。
Silva数据库
首先第一个,也是大家最常用的一个--Silva数据库(https://www.arb-silva.de/)。
Sliva数据库全称(SILVA ribosomal RNA database),是一个核糖体的RNA数据库,其提供全面的三个生命域(细菌、古细菌和真核生物)中的小亚基(简称SSU,包括16S/18S,SSU)和大亚基(简称LSU,包括23S/28S,LSU)核糖体RNA(rRNA)序列数据集。
其收录全面、更新比较及时,是目前高通量测序常用的SSU和LSU参考数据库之一。最近的一次更新时间在2020年9月2日,版本为Silva 138.1。138.1版本的数据库包含198万条细菌16S序列信息,近7万条古菌核糖体序列。
Silva数据库可以用于菌种鉴定和物种的分类鉴定,可以通过上传rRNA序列来确定序列的分类学信息。
(数据来源:Silva 数据库官网)
RDP数据库
RDP数据库全称“RibosomalDatabase Project”(http://rdp.cme.msu.edu/),其包括细菌、古菌16S rRNA基因和真菌28S rRNA基因序列,有质控、比对、注释等功能。这个数据的更新非常“迟缓”,最新一版为2016年9月30日更新的RDP Release 11.5,数据库中包含3356809 条16S rRNAs,125525条真菌 28S rRNA序列。
惊喜的是在2020年8月14日,该数据库使用细菌和古细菌分类模型训练集更新了第18版的物种分类学方法,新版本新增了800多个新属和4000个新种,并且根据最新的基因组分析对多个门和属进行了重大重排。(更新详情:https://sourceforge.net/projects/rdp-classifier/)
和Silva数据库一样,RDP数据库也可用于菌种鉴定和物种的分类鉴定,通过上传rRNA序列来确定该序列的分类学信息。
Greengenes数据库
Greengenes数据库(https://greengenes.secondgenome.com/)是针对细菌、古菌16S rRNA基因的数据库,相较于前面的RDP数据库来说,更新的更慢,现在的版本仍旧停留在2013年5月更新的gg_13_5版本上。
多样性测序数据下机后都是基于RDP数据库比对去除已知序列的嵌合体的,还有值得一提的是,细菌功能预测分析PICRUSTt是基于Greengenes进行的,如果有功能预测分析需求的同学们可以留意看下。
EzBioCloud数据库
EzBioCloud是一个由ChunLab维护的专门针对细菌、古菌16S rRNA基因的数据库。该数据库更新也很迟缓,但是值得开心的是,在2021年4月13日它进行了最新的一次更新,更新后的数据库包括84727个物种,65986条16SrRNA序列,201867条基因组信息。
EzBioCloud数据库可以进行16SrRNA鉴定(每次只能上传一条序列,并且使用功能前需登录)并绘制系统发育树,还可以确定某一微生物的近缘可培养/模式种。
上述4个数据库呢,常用于细菌、古菌群落微生态的物种注释,鉴于这些数据库的更新频次差距太大,所以在实际中常用的还是Silva数据库。
数据库的版本选择上呢,一般会使用当前研究阶段最新版的数据库(毕竟内容全面嘛),但是对于做样本间有时间跨度的研究的时候,比如说是做时间跨度上的土壤样本测序,第一年的样本进行物种注释的时候用的是Silva1.2.8版本的数据库,两年之后,再次在同地点取样进行多样性分析,此时最新版的Silva数据库已经更新到了1.3.2版本,那么此时建议选择和前一个样本相同版本的数据库进行注释,避免数据库注释信息之间的差异影响实验最终结果。
本文知识对4个数据库进行了简单的介绍,上文中的Silva数据库、RDP数据库的下载及其他功能实现(如:序列查找、序列比对等)我会在后续文章中为大家介绍详细的操作流程,其他真菌marker基因数据库也会后续为大家分享,请持续关注。
更多微生态相关文章:
网友评论