最近做的一个项目中,Read有很多的污染(Contamination)序列。通过获取部分read(100,000 reads)数据进行测试,我们发现污染序列大部分是来源于Bacteria。我们的方案是先把Bacteria污染的Read去掉,然后在进行下面的分析。
去除污染序列一直的软件有Deconseq,但是因为Deconseq的维护貌似已经停止了。同时,Deconseq的数据库下载链接已经已经死掉了。
所以我们准备直接使用Bowtie2将read 比对到细菌基因组上,然后获取Unmapped reads进行下游分析。
通过搜索NCBI,我们发现在NCBI中目前有10,194个对应的基因组序列。使用wget下载对应的序列后(大约需要18个小时)。对应的序列共有40G的数据(玉米基因组大小大约为2.2G)。另外我们的Read序列也比较多。如果采取将read比对至这些序列的话,那么消耗的时间将会很大。
所以我们最后决定先从每个样本中去除100,000 read将其比对至nt 数据库,我们使用的比对工具是:magic-BLAST。
然后通过使用blastcmd获得对应比对到的序列的物种。接着我们对这些物种计数,取出至少有100个read mapping的细菌物种。然后下载这些物种的基因组信息,合并后建立数据库。然后将Read比对至这些序列,获得Unmapped read 后进行下游分析。
后面我们会详细讲一下如何使用Magic-BLAST进行比对,然后进行获得对应的物种信息。然后又如何使用ncbi-genome-download来下载对应的基因组序列。如果大家有兴趣,请关注我们的公众号支持我们。
网友评论