SOAPdenowo

作者: 纤蹄马 | 来源:发表于2018-10-15 20:32 被阅读9次

    SOAPdenovo是一个新颖的适用于组装短reads的方法,能组装出类似人类基因组大小的de novo草图。该软件特地设计用来组装Illumina GA short reads,新版本减少了在图创建时的内存消耗,解决了contig组装时的重复区域的问题,增加了scaffold组装时的覆盖度和长度,改进了gap closing,更加适用于大型基因组组装。(SOAPdenovo是为了组装大型植物和动物基因组而设计的,同样也适用于组装细菌和真菌,组装大型基因组大小如人类时,可能需要150G内存。)

    有趣的是,大部分的short read比对工具都是由中国人写出来的。因此可以说华大基因(BGI, Beijing Genomics Institute, Chinese Academy of Science)是中国NGS测序技术的摇篮。

    速度上较有优势的short read(短序)比对工具最早出现的是SOAP(表1)。它很好地解决了一个问题,那就是如何在小内存(4G)的机器上将短序比对至人类基因组这样的大数据上去。我们都知道,人类基因组的大小为3.2G(表2),光把这样大的数据读入内存都是一件不太容易的事情。所以SOAP对NGS的贡献是值得我们记住的。SOAP在设计之初是针对single-end reads,所以对paired-end的支持不被大家看好。它的成功也逐步被后起之秀所掩盖。

    SOAPdenovo组装软件介绍:

    官网:http://soap.genomics.org.cn/soapdenovo.html#intro2

    可下载地址:https://github.com/aquaskyline/SOAPdenovo2

    论文:

    《SOAPdenovo2:an empirically improved memory-efficient short-read de

    novo assembler》https://wenku.baidu.com/view/6fa2546069eae009581becd3.html?re=view###

    Ruiqiang Li, et al. De novo assembly ofhuman genomes with massively parallel short read sequencing. 2009,GenomeResearch.

    软件使用:

    SOAPdenovo可以一步跑完,也可以分成四步单独跑

    一步跑完的脚本:

    ./SOAPdenovoall -s config_file -K 25 -R -D 1 -d  -ograph_prefix 1>ass-K25.log 2>ass-K25.err

    四步单独跑的脚本:

    ./SOAPdenovopregraph -s config_file  -K 25 -R -d 1 -p-o graph_prefix  >pregraph.log

    ./SOAPdenovocontig   -g graph_prefix -R -D 1 -M1  >contig.log

    ./SOAPdenovomap      -s config_file  -g graph_prefix -p  -f >map.log

    ./SOAPdenovoscaff    -g graph_prefix -F -u -G -p>scaff.log

    d.  输出文件

    组装结果文件:

    *.contig            #没有使用mate pair 信息的contig

    sequences 。

    *.scafSeq           #SOAPdenovo软件最终的组装序列结果,可用于后续研究。

    *.scafStatistics       #contigs和scaffolds的最终统计信息。

    组装过程中产生的其他文件,详见官网:

    *.kmerFreq        #每行显示一个数,这个数是kmer值出现的频率等于行号的kmer个数。

    http://soap.genomics.org.cn/soapdenovo.html#intro2

    Anillustration of relationships between alignment methods.

    ·The applications / corresponding computational restrictions shownare (green) short pairwise alignment / detailed edit model;

    ·(yellow) database search / divergent homology detection;

    ·(red) whole genome alignment / alignment of long sequences withstructural rearrangements;

    ·and (blue) short read mapping / rapid alignment of massive numbersof short sequences. Although solely illustrative, methods with more similardata structures or algorithmic approaches are on closer branches.

    ·The BLASR method combines data structures from short read alignmentwith optimization methods from whole genome alignment.

    SOAP是有其比对上的优势的,可以看出,SOAP对错误率的容忍较高,对indel的容忍也很好,这就是我现在需要的,可以尝试一下用SOAP将二代比对到三代上

    参考:

    http://teacher.bmc.uu.se/costuppsala2012/COSTUPPSALA2012/Lectures_files/SOAPdenovo-COST-XiaodongFANG-BGI.pdf

    http://www.life.umd.edu/labs/delwiche/bsci348s/lec/Genomics.html

    Jason R. Miller et al., Assembly algorithms

    for next‐generation sequencing data. Genomics

    Li R, et al. De novo assembly of humangenomes with massively parallel short read sequencing. Genome Research (2010).

    http://blog.sina.com.cn/s/blog_5d1edf6a0100w56l.html

    http://blog.sina.com.cn/s/blog_78c527410102w7ek.html

    http://blog.sina.com.cn/s/blog_14ece68cc0102wagf.html

    https://www.cnblogs.com/leezx/p/5606373.html

    相关文章

      网友评论

        本文标题:SOAPdenowo

        本文链接:https://www.haomeiwen.com/subject/qosqzftx.html