二代数据组装
- 构建contig:将所有小片段打成K-mer构建de Bruijn图,然后会根据给定的参数对de Bruijn图做一些化简,最后连接K-mer的路径即可得到contig序列 。
- 构建scaffold:将reads map到contig序列上去,利用reads之间的PE关系去判断contig之间的连接关系,得到scaffold序列。
- 补缺:将成对reads比对到scaffold序列上,确定出一条reads比上contig序列而另外一条reads落入gap区域的比对信息,利用落入同一个gap区域的reads做局部组装。
插入片段 | 测序长度 | 数据乘数 |
---|---|---|
200-1000bp | PE150/PE250 | 100X coverage |
2kb-40kb | PE150/PE50 | 1000X physical coverage |
SOAPdenovo2
SOAPdenovo2 是一款拼接速度快,用的比较多的拼接软件,适合用来做
动植物基因组的拼接。
下载地址:https://sourceforge.net/projects/soapdenovo2/
参考脚本
SOAPdenovo2标准分析四个步骤
SOAPdenovo-63mer pregraph -s ./config.txt -o K41 -K 41 -p 6 -d 1 2>./pregraph.log
SOAPdenovo-63mer contig -g K41 -p 6 2>./contig.log
SOAPdenovo-63mer map -s ./config.txt -g K41 -k 35 -p 6 2>./map.log
SOAPdenovo-63mer scaff -g K41 -p 6 -F 2>./scaff.log
#-k 指定kmer大小
配置文件config.txt
max_rd_len=150 #允许的最长的reads,所有数据
[LIB]
avg_ins=200 #插入片段大小
reverse_seq=0 #标签根据文库选择,0表示小片段数据
asm_flags=3 #组装的程度,3表示即构建contig又连接scaffold
rd_len_cutoff=100 #允许的最长的reads,单组数据
rank=1#连接scaffold的参数,1k以下选1
pair_num_cutoff=3 #连接scaffold的参数
map_len=32 #连接scaffold的参数
q1=../data/ecoli_R1.fastq.gz
q2=../data/ecoli_R2.fastq.gz
结果文件
K41.scafSeq :拼接好的基因组序列
K41.scafStatistics :结果统计文件
SPAdes
SPAdes 是另一款推荐的二代拼接软件,该软件比较适合小基因组拼接,
拼接结果的长度和准确性都很好,但非常消耗计算资源。
软件官网:https://cab.spbu.ru/software/spades/
参考脚本
spades.py -t 6 -k 51 --pe-1 1 ./ecoli_R1.fastq.gz --pe-2 1 ./ecoli_R2.fastq.gz -o spades_out
结果文件
scaffolds.fasta
网友评论