「BioNano系列」光学图谱混合组装应该怎么做? 简单的介绍了混合组装的整体步骤,这一篇具体介绍它是如何生成hybrid scaffold表征的AGP和FASTA文件
下面是几个物理图谱和光学图谱混装之后,再回帖到混合图谱的例子



第一步,根据光学图谱,物理图谱和混合图谱的比对结果,构建AGP文件。
主要目标是从混合图谱中对原始序列进行拼接, 需要考虑3种情况
- 混合图谱中两翼无序列覆盖区
- 混合图谱中中间无序列覆盖区
- 一个区域有多个序列覆盖
为了和NCBI的AGP兼容,第一种情况的处理方法就是将混合图谱中两翼无序列覆盖区直接删除,保证其实序列不是N。
第二种情况的解决方案就是用N进行填充。其中N的数目来自于光学图谱和物理图谱距离比例换算,但是最低不低于固定值G, 默认G是13.
第三种情况下,会采用覆盖同一个区域中多条序列中最长的那条
第二步: 基于AGP文件信息,BioNano的Hybrid Scaffold流程对原始序列进行拼接。最终产生2类FASTA文件,一类是未被用于混合组装的序列,文件命名里包含NOT_SCAFFOLD
,另一类是由基因组序列和代表未知区域的N组成。每一类文件还会有额外的NCBI版本,也就是未知区域只能用N表示。
最终在agp_fasta目录下有下面这些文件, 不同项目的文件名或许有些不同,但差异不会太大
athaliana_BSPQ1_0kb_0labels_key.txt.cut.txt
athaliana.fasta.cut.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.agp
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.gap
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NCBI.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_NOT_SCAFFOLDED.fasta
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD_trimHeadTailGap.coord
EXP_REFINEFINAL1_bppAdjust_cmap_athaliana_fasta_NGScontigs_HYBRID_SCAFFOLD.xmap_sorted.xmap
xmap2agp.errlog
xmap2agp.log
对于scaffold中的gap,可以用一些补洞软件,例如PBjelly进行 gap filling
网友评论