美文网首页test收藏tbtools
二代测序数据组装

二代测序数据组装

作者: Bioinfor生信云 | 来源:发表于2023-01-15 21:50 被阅读0次

二代数据组装

  • 构建contig:将所有小片段打成K-mer构建de Bruijn图,然后会根据给定的参数对de Bruijn图做一些化简,最后连接K-mer的路径即可得到contig序列 。
  • 构建scaffold:将reads map到contig序列上去,利用reads之间的PE关系去判断contig之间的连接关系,得到scaffold序列。
  • 补缺:将成对reads比对到scaffold序列上,确定出一条reads比上contig序列而另外一条reads落入gap区域的比对信息,利用落入同一个gap区域的reads做局部组装。
插入片段 测序长度 数据乘数
200-1000bp PE150/PE250 100X coverage
2kb-40kb PE150/PE50 1000X physical coverage

SOAPdenovo2

SOAPdenovo2 是一款拼接速度快,用的比较多的拼接软件,适合用来做
动植物基因组的拼接。
下载地址:https://sourceforge.net/projects/soapdenovo2/

参考脚本

SOAPdenovo2标准分析四个步骤

SOAPdenovo-63mer pregraph -s ./config.txt -o K41 -K 41 -p  6  -d 1 2>./pregraph.log
SOAPdenovo-63mer contig -g K41 -p  6  2>./contig.log
SOAPdenovo-63mer map -s ./config.txt -g K41 -k 35 -p  6  2>./map.log
SOAPdenovo-63mer scaff -g K41 -p  6  -F 2>./scaff.log
#-k 指定kmer大小

配置文件config.txt

max_rd_len=150 #允许的最长的reads,所有数据
[LIB]
avg_ins=200 #插入片段大小
reverse_seq=0 #标签根据文库选择,0表示小片段数据
asm_flags=3 #组装的程度,3表示即构建contig又连接scaffold
rd_len_cutoff=100 #允许的最长的reads,单组数据
rank=1#连接scaffold的参数,1k以下选1
pair_num_cutoff=3 #连接scaffold的参数
map_len=32 #连接scaffold的参数
q1=../data/ecoli_R1.fastq.gz
q2=../data/ecoli_R2.fastq.gz

结果文件

K41.scafSeq :拼接好的基因组序列
K41.scafStatistics :结果统计文件



SPAdes

SPAdes 是另一款推荐的二代拼接软件,该软件比较适合小基因组拼接,
拼接结果的长度和准确性都很好,但非常消耗计算资源。
软件官网:https://cab.spbu.ru/software/spades/

参考脚本

spades.py   -t 6 -k 51 --pe-1 1 ./ecoli_R1.fastq.gz  --pe-2 1 ./ecoli_R2.fastq.gz  -o spades_out

结果文件

scaffolds.fasta


欢迎关注Bioinfor 生信云!

相关文章

  • 线粒体基因组的组装和注释(MitoFinder )

    之前有过用二代测序的数据组装植物叶绿体基因组昆虫线粒体的经历,用的是单位的超算(Linux系统)。 这里的二代测序...

  • 动植物基因组组装要点小结

    组装策略 二代测序平台如Illumina、BGI,稳定可靠,数据质量高,成本低,读长短。三代测序平台如PacBio...

  • 二代测序数据组装

    二代数据组装 构建contig:将所有小片段打成K-mer构建de Bruijn图,然后会根据给定的参数对de B...

  • 数据过滤

    二代测序数据过滤 1.基因测序技术 2.二代测序比较 3.测序通用流程 4.测序数据错误(针对每项过滤) 5.测序...

  • 测序原理免费资源收集

    一代测序 Sanger 测序 二代测序 Illumina测序HiSeq工作原理二代测序原理及fastq数据 三代测...

  • 二代测序组装

    Step1 :质控 Read Quality Control Step2:组装 Assembly 5、基因组评价 ...

  • TCGA肠道菌群数据库

    我们知道TCGA数据库包括很多患者的二代测序的数据。关于二代测序。之前我们就介绍过,其实二代测序的数据是是一部分所...

  • 二代测序基础知识

    二代测序基础知识 二代测序基础概念 (这个是与二代测序相关每个部门都要掌握的) FQ数据格式 高通量测序(如Ill...

  • Pilon | 基因组纠错

    前言 三代测序错误率比较高,一般组装后需要进行纠错来提高准确度。本次介绍使用Pilon通过引入二代测序数据来对三代...

  • 宏基因组分析概述

    测序数据预处理——质控:Trimmomatic 测序数据预处理——质控统计:FastQC 序列组装与基因预测——拼...

网友评论

    本文标题:二代测序数据组装

    本文链接:https://www.haomeiwen.com/subject/hlcocdtx.html