美文网首页
生物信息百Jia软件(23):SOAPdenovo

生物信息百Jia软件(23):SOAPdenovo

作者: 基因学苑 | 来源:发表于2019-08-11 22:30 被阅读0次

欢迎订阅WX众号:基因学苑,更多精彩内容等你发掘!

基因学苑Q群:32798724

编者按

SOAPdenobo是soap系列软件中最好用的一款。已经完成非常多的基因组的拼接了,我曾经用过模拟数据,比较SOAPdenovo和velvet以及spades等几款软件的拼接效果,SOAPdenovo无论是完整性还是准确性方面效果否非常好。

一、功能分类: 

序列拼接

二、软件官网:

http://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/

三、软件介绍:

SOAPdenovo是由华大基因开发的SOAP软件包的一部分,SOAPdenovo主要用于短序列reads拼接,尤其是illumina测序数据。从小的细菌基因组到大的动植物基因组,人基因组都适用。已经成功应用于大熊猫基因组,黄瓜基因组等众多基因组的拼接中。

SOAPdenovo的一个优点是使用起来比较简单,但是却拥有很好的拼接效果,尤其在基因组构建Scaffold方面,效果很好。对于内存控制的也比较好。通常只要给软件输入测序的数据,即可拼接出很好的全基因组。

四、下载安装: 

wgethttps://sourceforge.net/projects/soapdenovo2/files/SOAPdenovo2/bin/r240/SOAPdenovo2-bin-LINUX-generic-r240.tgz

tar -zxvf SOAPdenovo2-bin-LINUX-generic-r240.tgz

五、软件使用: 

SOAPdenovo需要使用一个配置文件,将数据路径写入配置文件中,可以使用多个文库。

max_rd_len=90

[LIB]

avg_ins=439

reverse_seq=0

asm_flags=3

rank=1

pair_num_cutoff=3

q1=../../../Data/reads.1.fq.gz

q2=../../../Data/reads.2.fq.gz

选项参数。

-s  STR     配置文件

-o  STR     输出文件的文件名前缀

-g  STR     输入文件的文件名前缀,这个主要用在分布运行程序的时候。

-K  INT     输入的K-mer值大小,默认值23,取值范围 13-63

-p  INT     程序运行时设定的线程数,默认值8

-R          利用read鉴别短的重复序列,默认值不进行此操作

-d  INT     去除频数不大于该值的k-mer,默认值为0

-D  INT         去除频数不大于该值的由k-mer连接的边,默认值为1,即该边上每个点的频数都小于等于1时才去除

-M  INT     连接contig时合并相似序列的等级,默认值为1,最大值3。

-F          利用read对scaffold中的gap进行填补,默认不执行

-u          构建scaffold前不屏蔽高覆盖度的contig,这里高频率覆盖度指平均contig覆盖深度的2倍。默认屏蔽

-G  INT        估计gap的大小和实际补gap的大小的差异,默认值为50bp。

-L          用于构建scaffold的contig的最短长度,默认为:Kmer参数值 ×2

-k   INT map步骤中kmer的大小,默认是和K一样的kmer大小

-N  INT  基因组大小

-V 输出可视化的组装信息

六、使用案例: 

SOAPdenovo-63merall-slib.config-K45-d1-D1-okmer45-F>kmer45.log

七、注意事项:

1、软件需要使用配置文件;

2、如果使用matepair文库,配置文件中一些选项需要修改。

相关文章

网友评论

      本文标题:生物信息百Jia软件(23):SOAPdenovo

      本文链接:https://www.haomeiwen.com/subject/rxjejctx.html