基因组组装
基因组是怎么组装的,目前的方法有什么局限性?
为什么要进行基因组组装?是因为目前的测序方法,无论是一代、二代、三代都是借助于全基因组鸟枪法(Whole genome shotgun)将基因组打断成小片段进行测序,因此需要将这些小片段重新拼接起来还原基因组信息。基因组组装的过程是将DNA小片段(reads)拼接成小重叠群(contigs),再将contigs组装成长的scaffolds,最后将scaffolds定位到染色体。常用的算法通常是基于序列的overlap构建可能的组合路径,然后找出最优路径,构建contigs和scaffolds。
局限性
目前基因组组装大多仅停留在长序列片段水平(BAC或scaffolds),而确定scaffolds在染色体上的具体位置仍面对挑战。传统的scaffolds 锚位方法一类是基于物理图谱的方法,另一类是基于遗传图谱的方法。但是实际操作过程中这两种方法有几个难点:大片段文库构建难度大;成本较高;误差偏高。
Hi-C技术可以辅scaffolds快速定位在染色体。
Hi-C辅助基因组组装的原理
Hi-C技术怎么辅助基因组组装?
Hi-C技术依据染色质间的相互作用随着距离越远递减的规律,对scaffolds 的进行聚类分群,计算其相邻关系,然后基于染色体的交互信息对scaffolds进行排序和定向。
Hi-C辅助基因组组装的优缺点
优点
相比于遗传图谱和物理图谱,基于Hi-C的基因组组装具有更高的覆盖率和特异性,避免了繁琐的群体构建工作,实验周期短,成本减少。
缺点
- 对重复序列如着丝粒和端粒组装有困难;
- Hi-C技术的分辨率限制
- Hi-C技术辅助基因组组装的理论依据是“近程交互作用高于远程交互”,但是这个规律在某些特定区域(如TAD)等并不总是成立。
在scaffolds 片段较小(< 5 kb)、高度重复序列区域等因素都可能直接导致scaffolds 锚位准确
性和覆盖率降低。
Hi-C组装常用软件及对比
- Lachesis
- GRAAL
- danTri
- HiRISE
- HiCpro
-
SALSA2
SALSA2是2018年新开发的基于Hi-C数据辅助组装的分析软件,该分析软件不需要预先设定染色体的数目,提高了精确度。此外在数据输入上还兼容GAF的数据拼接格式,同时还利用Hi-C数据对错误的组装结果进行矫正。github地址:SALSA: A tool to scaffold long read assemblies with Hi-C(https://github.com/machinegun/SALSA)。
HiC-Pro
HiC-Pro is an optimized and flexible pipeline for processing Hi-C data from raw reads to normalized contact maps. HiC-Pro maps reads, detects valid ligation products, performs quality controls and generates intra- and inter-chromosomal contact maps. It includes a fast implementation of the iterative correction method and is based on a memory-efficient data format for Hi-C contact maps. In addition, HiC-Pro can use phased genotype data to build allele-specific contact maps. We applied HiC-Pro to different Hi-C datasets, demonstrating its ability to easily process large data in a reasonable time. Source code and documentation are available at http://github.com/nservant/HiC-Pro.
Hi-C辅助基因组组装的流程
- Lachesis
https://github.com/shendurelab/LACHESIS - GRAAL
https://github.com/koszullab/HiC-Box
-dnaTri
https://github.com/theaidenlab/3d-dna - HIRISE
https://github.com/DovetailGenomics/HiRise_July2015_GR - HiC-Pro
https://github.com/nservant/HiC-Pro
documents :http://nservant.github.io/HiC-Pro/ - SALSA2
https://www.biorxiv.org/content/early/2018/02/07/261149
参考资料
- Burton J N, Adey A, Patwardhan R P, et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions[J]. Nature biotechnology, 2013, 31(12): 1119.
- 基于染色质交互数据的基因组组装方法
陶婧芬 谢婷 郑觉非 杨庆勇 - Hi-C辅助基因组组装简述及好文推
- Ghurye J, Rhie A, Walenz B P, et al. Integrating Hi-C links with assembly graphs for chromosome-scale assembly[J]. bioRxiv, 2018: 261149
- 基因组组装的算法
网友评论