二代测序数据组装

作者: Bioinfor生信云 | 来源:发表于2023-01-15 21:50 被阅读0次

线粒体基因组的组装和注释（MitoFinder ）
动植物基因组组装要点小结
二代测序数据组装
数据过滤
测序原理免费资源收集
二代测序组装
TCGA肠道菌群数据库
二代测序基础知识
Pilon | 基因组纠错
宏基因组分析概述

二代数据组装

构建contig：将所有小片段打成K-mer构建de Bruijn图，然后会根据给定的参数对de Bruijn图做一些化简，最后连接K-mer的路径即可得到contig序列。
构建scaffold：将reads map到contig序列上去，利用reads之间的PE关系去判断contig之间的连接关系，得到scaffold序列。
补缺：将成对reads比对到scaffold序列上，确定出一条reads比上contig序列而另外一条reads落入gap区域的比对信息，利用落入同一个gap区域的reads做局部组装。

插入片段	测序长度	数据乘数
200-1000bp	PE150/PE250	100X coverage
2kb-40kb	PE150/PE50	1000X physical coverage

SOAPdenovo2

SOAPdenovo2 是一款拼接速度快，用的比较多的拼接软件，适合用来做
动植物基因组的拼接。
下载地址：https://sourceforge.net/projects/soapdenovo2/

参考脚本

SOAPdenovo2标准分析四个步骤

SOAPdenovo-63mer pregraph -s ./config.txt -o K41 -K 41 -p  6  -d 1 2>./pregraph.log
SOAPdenovo-63mer contig -g K41 -p  6  2>./contig.log
SOAPdenovo-63mer map -s ./config.txt -g K41 -k 35 -p  6  2>./map.log
SOAPdenovo-63mer scaff -g K41 -p  6  -F 2>./scaff.log
#-k 指定kmer大小

配置文件config.txt

max_rd_len=150 #允许的最长的reads，所有数据
[LIB]
avg_ins=200 #插入片段大小
reverse_seq=0 #标签根据文库选择，0表示小片段数据
asm_flags=3 #组装的程度，3表示即构建contig又连接scaffold
rd_len_cutoff=100 #允许的最长的reads，单组数据
rank=1#连接scaffold的参数，1k以下选1
pair_num_cutoff=3 #连接scaffold的参数
map_len=32 #连接scaffold的参数
q1=../data/ecoli_R1.fastq.gz
q2=../data/ecoli_R2.fastq.gz

结果文件

K41.scafSeq ：拼接好的基因组序列
K41.scafStatistics ：结果统计文件

SPAdes

SPAdes 是另一款推荐的二代拼接软件，该软件比较适合小基因组拼接，
拼接结果的长度和准确性都很好，但非常消耗计算资源。
软件官网：https://cab.spbu.ru/software/spades/

参考脚本

spades.py   -t 6 -k 51 --pe-1 1 ./ecoli_R1.fastq.gz  --pe-2 1 ./ecoli_R2.fastq.gz  -o spades_out

结果文件

scaffolds.fasta

欢迎关注Bioinfor 生信云！

网友评论

本文标题：二代测序数据组装

本文链接：https://www.haomeiwen.com/subject/hlcocdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

二代测序数据组装

二代数据组装

SOAPdenovo2

参考脚本

SPAdes

参考脚本

欢迎关注Bioinfor 生信云！

相关文章

线粒体基因组的组装和注释（MitoFinder ）

动植物基因组组装要点小结

二代测序数据组装

数据过滤

测序原理免费资源收集

二代测序组装

TCGA肠道菌群数据库

二代测序基础知识

Pilon | 基因组纠错

宏基因组分析概述

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

test

收藏

tbtools