每日小窍门: 如何去除Read中的污染的Bacteria序列？

作者: OmicsAcademy | 来源:发表于2018-07-22 00:17 被阅读33次

最近做的一个项目中，Read有很多的污染（Contamination）序列。通过获取部分read（100,000 reads）数据进行测试，我们发现污染序列大部分是来源于Bacteria。我们的方案是先把Bacteria污染的Read去掉，然后在进行下面的分析。

去除污染序列一直的软件有Deconseq，但是因为Deconseq的维护貌似已经停止了。同时，Deconseq的数据库下载链接已经已经死掉了。

所以我们准备直接使用Bowtie2将read 比对到细菌基因组上，然后获取Unmapped reads进行下游分析。

通过搜索NCBI，我们发现在NCBI中目前有10,194个对应的基因组序列。使用wget下载对应的序列后（大约需要18个小时）。对应的序列共有40G的数据（玉米基因组大小大约为2.2G）。另外我们的Read序列也比较多。如果采取将read比对至这些序列的话，那么消耗的时间将会很大。

所以我们最后决定先从每个样本中去除100,000 read将其比对至nt 数据库，我们使用的比对工具是：magic-BLAST。

然后通过使用blastcmd获得对应比对到的序列的物种。接着我们对这些物种计数，取出至少有100个read mapping的细菌物种。然后下载这些物种的基因组信息，合并后建立数据库。然后将Read比对至这些序列，获得Unmapped read 后进行下游分析。

后面我们会详细讲一下如何使用Magic-BLAST进行比对，然后进行获得对应的物种信息。然后又如何使用ncbi-genome-download来下载对应的基因组序列。如果大家有兴趣，请关注我们的公众号支持我们。

网友评论

本文标题：每日小窍门: 如何去除Read中的污染的Bacteria序列？

本文链接：https://www.haomeiwen.com/subject/etgmuftx.html

每日小窍门: 如何去除Read中的污染的Bacteria序列？