美文网首页宏基因组宏基因组学习
idba_ud-序列拼接组装(2018-05-24)

idba_ud-序列拼接组装(2018-05-24)

作者: 简单点lili | 来源:发表于2018-05-24 19:29 被阅读0次

    拼接的思路大体可以分为两种:一种叫做Overgap,一种是debrujin,前者是根据两条read序列前后部分的重叠来拼接,适用于一代测序的结果,而后者是将reads切割成更小的片段k-mers,k-mers的组合来完成拼接工作,适用于二代高通量测序

    现在可以用的软件非常之多,比如说:clc(收费的),SOAPdenovo,velet等等。

    使用idba_ud软件进行拼接,

    首先准备好经过trimmomatic去接头和低质量序列的reads,双端和单端都可以。

    idba_ud(http://i.cs.hku.hk/~alse/hkubrg/projects/idba_ud/)是一个可以针对不同测序深度的短reads的基于交互式De Bruijin作图的从头拼接软件。他从小的k-mer开始到大的的k-mer步步前进,设定阈值,短的和低深度的contigs被删掉,这样来完成低深度和高深度的拼接。

    命令参数

    Comment

    IDBA接受fasta格式的reads. Fastq格式可以通过fq2fa程序被转化为fasta文件

    $ bin/fq2fa read.fq read.fa

    IDBA-SC需要将paired-end reads存在一个FastA文件中,一对reads保存在两行,如果不是,可以用fq2fa来合并两个FastQ为一个。

    $ bin/fq2fa --merge --filter read_1.fq read_2.fq read.fa(使用这条命令。将两个fq文件合并成一个fa文件)

    or convert a FastQ read file to FastA file.

    $ bin/fq2fa --paired --filter read.fq read.fa

    最后输入如下命令即可:

    idba_ud -r total.read.fa --maxk 90 --step 10 -o output_dir1--num_threads 4 --min_contig 200

    --mask 设定kmer,此处选定最大值90。

    我的序列500Mb,大概10几分钟就出结果了。

    参考:

    一位大牛:http://118.31.76.100:100/ngs/bin/idba-ud/

    相关文章

      网友评论

        本文标题:idba_ud-序列拼接组装(2018-05-24)

        本文链接:https://www.haomeiwen.com/subject/ljxejftx.html