PMID: 21408061
PMCID: PMC3052304
DOI: 10.1371/journal.pone.0017288
摘要
高通量测序技术已经对微生物学产生了强烈的影响,提供了一种快速和具有成本效益的方式来生成草图基因组和探索微生物多样性。然而,从非纯核酸制剂中获得的序列可能包含来自样本以外来源的DNA。这些序列污染严重影响了用于下游分析的数据质量,导致序列拼接错误和错误的结论。因此,去除序贯污染物是所有序贯项目的必要步骤。我们开发了一个健壮的框架DeconSeq,用于快速、自动识别和去除长读取数据集(平均读取长度为150 bp)中的序列污染。DeconSeq是公开的独立版本和基于web的版本。结果可导出作后续分析,而网页版本所使用的资料库亦会定期自动更新。DeconSeq对可能的污染序列进行分类,消除与非污染基因组相似度更高的冗余匹配,并提供对齐结果和分类的图形化可视化。利用DeconSeq,我们对202个先前发表的微生物和病毒宏基因组中可能存在的人类DNA污染进行了分析,发现145个(72%)宏基因组中可能存在污染,污染序列高达64%。这个新的框架允许科学家自动检测并有效地从他们的数据集中去除不需要的序列污染,同时消除当前方法的关键限制。DeconSeq的网页界面简单易用。独立版本允许离线分析和集成到现有的数据处理管道中。DeconSeq的结果揭示了测序实验是否成功,是否正确的样本被测序,以及样本是否含有来自DNA制备或宿主的任何序列污染。此外,对202个宏基因组的分析表明,非人类相关宏基因组存在显著污染,这表明该方法适用于筛选所有宏基因组。DeconSeq可以在http://deconseq.sourceforge.net/上找到。
网友评论