soapdenovo2进行基因组组装

作者: 生信修炼手册 | 来源:发表于2018-09-17 16:29 被阅读43次

欢迎关注"生信修炼手册"

基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产品

  1. 细菌/真菌基因组组装

  2. 动植物基因组组装

细菌/真菌基因组相对较小,组装难度较低;动植物基因组很大,而且杂合度很高,特别是多倍体植物,这对于测序和分析都是很大的挑战。

对于测序而言,随着三代测序价格降低,对于小型基因组组装,可以直接进行三代测序;对于大型基因组组装,会结合二代和三代测序的数据;除了单纯测序组装外,还出现了Hi-C辅助基因组组装,光学图谱辅助基因组组装等产品。

对于分析而言,pacbio公司整合了许多的组装软件,专门针对三代测序数据进行组装;对于二代测序平台的数据,有很多开源软件可供选择,主流的包括以下几种

  1. soapdenovo

  2. allpaths-lg

  3. Velvet

  4. spades

  5. Abyss

soapdenovo是由华大开发的组装工具,主要用于动植物基因组等大型基因组的组装,也可以用于细菌/真菌基因组组装。对于大型基因组装而言,需要的硬件资源特别多,建议内存在150G以上。

该软件目前版本为soapdenovo2, github链接如下

https://github.com/aquaskyline/SOAPdenovo2

安装过程如下

wget https://github.com/aquaskyline/SOAPdenovo2/archive/r241.tar.gz
tar xzvf r241.tar.gz
cd SOAPdenovo2-r241/
make

编译成功后,会生成如下3个可执行文件

  1. SOAPdenovo-63mer

  2. SOAPdenovo-127mer

  3. SOAPdenovo-fusion

前2个可执行文件用于组装, 63mer代表支持的kmer最大长度为63,127mer代表支持的kmer最大长度为127,除了支持的kmer长度不同外,其他用法完全
相同。

SOAPdenovo由以下几个子命令构成

  1. pregraph

  2. sparse_pregraph

  3. contig

  4. map

  5. scaff

  6. all

前5个子命令对应了soapdenovo组装的5个步骤,all命令表示一次执行以上的5个步骤;在组装时,既可以依次执行每一个步骤,也可以直接使用all命令,一次运行所有步骤。

soapdenovo需要一个配置文件,配置文件分成两个部分,全局配置和每个文库的配置。全局配置目前只有一个参数max_rd_len, 如果序列大于该长度,会被切成该长度,然后在分析。

每个文库的配置以[LIB]开头,主要指定输入文件的路径,支持多种格式的输入文件,用不同的前缀表示, q代表输入序列为fastq格式;f代笔输入序列为fasta格式,b代表输入文件为bam格式,对于双端数据,分别用后缀12表示R1端和R2端的reads。

除了输入文件路径外,还包含以下几个参数的设置

  1. avg_ins
    文库插入片段的平均长度,在实际设置时,可以参考文库size分布图,取峰值即可

  2. reverse_seq
    是否需要将序列反向互补,对于pair-end数据,不需要反向互补,设置为0;对于mate-pair数据,需要反向互补,设置为1

  3. asm_flags
    1表示只组装contig. 2表示只组装scaffold,3表示同时组装contig和scaffold,4表示只补gap

  4. rd_len_cutof
    序列长度阈值,作用和max_rd_len相同,大于该长度的序列会被切除到该长度

  5. rank
    设置不同文库数据的优先级顺序,取值范围为整数,rank值相同的多个文库,在组装scaffold时,会同时使用。

  6. pair_num_cutoff
    contig或者scaffold之前的最小overlap个数,对于pair-end数据,默认值为3;对于mate-paird数据,默认值为5

  7. map_len
    比对长度的最小阈值,对于pair-end数据,默认值为32;对于mate-pair数据,默认值为35

配置文件示例如下

max_rd_len=100
[LIB]
avg_ins=200
reverse_seq=0
asm_flags=3
rd_len_cutoff=100
rank=1
q1=fastq1_read_1.fq
q2=fastq1_read_2.fq

软件基本用法如下

SOAPdenovo-63mer all -s config_file -K 63 -R -o graph_prefix

运行成功后,会生成很多文件,其中有两个文件是组装的结果,后缀分别为contigscafSeq,对应contig和scaffold。

更多的参数和用法请参考官方帮助文档。

扫描关注微信号,更多精彩内容等着你!

相关文章

  • soapdenovo2进行基因组组装

    欢迎关注"生信修炼手册"! 基因组的的大小,杂合程度等因素都影响基因组组装的难易程度,目前市场上主流的有以下两种产...

  • 如何获取测序数据的average insert size

    在学习用SOAPdenovo2组装基因组的过程中,发现配置文件需要填average insert size这一项。...

  • 基因组组装----SOAPdenovo2

    1.基因组组装的流程 基因组组装的大概流程如下: (1) 测序得到raw reads序列。 (2) Reads质量...

  • 02-Hi-C辅助基因组安装

    基因组组装 基因组是怎么组装的,目前的方法有什么局限性?为什么要进行基因组组装?是因为目前的测序方法,无论是一代、...

  • Bacteria genome denovo assembly

    细菌基因组组装金标准:GAGE-B 组装软件的选择 细菌基因组组装的目标不同于大型生物基因组的组装,大型基因组组装...

  • 常用转录组组装软件集合

    转录组组装软件 基因组组装 基因组组装(Genome assembly)是指使用测序方法将待测物种的基因组生成序列...

  • 二代数据组装叶绿体基因组

    与核基因组相比,细胞器基因组相对来说,更为保守,并且序列较短,更加易于组装,仅仅根据二代测序reads即可进行组装...

  • 基因组组装: 3D-DNA 染色体挂载

    导读 本文将介绍基因组组装过程中,如何利用HiC测序数据,进行染色体级别基因组的组装。该过程主要利用 Juicer...

  • 基因组结构注释

    1. 组装基因组质控 得到组装好的基因组序列之后,首先要使用多种方法评估组装质量。这里用到2款可用于基因组组装质量...

  • 基因组 组装教程 (T2T)

    导读 本文将介绍T2T基因组,并提供一份基因组组装的资料,其中包含:基因组组装数据和组装策略介绍;染色体水平基因组...

网友评论

    本文标题:soapdenovo2进行基因组组装

    本文链接:https://www.haomeiwen.com/subject/eulrnftx.html