美文网首页
一文了解为什么要实现完整染色体组装?

一文了解为什么要实现完整染色体组装?

作者: 贝瑞科服 | 来源:发表于2021-06-09 10:36 被阅读0次

    目前,受限于基因组中端粒、着丝粒等高复杂序列区域的存在,在动植物研究领域,大多数物种所获得的染色体水平参考基因组中仍然存在大量的缺口序列有待填补。随着三代测序等技术的快速发展,基因组完成图的科研梦想不再是遥不可及。目前在人类、水稻、香蕉等物种中已陆续实现多条完整染色体的组装。通过完整染色体组装,能够深度解析基因组中端粒、着丝粒等复杂区域结构和功能。

    一、案例一:人类基因组首次实现常染色体的完整组装

    文章题目:The structure, function and evolution of a complete human chromosome 8

    发表时间:2021年5月

    发表期刊:Nature(IF=42.772)

    1、材料方法

    利用互补的长读长测序技术对CHM13进行测序和基因组组装,获得了8号染色体从端粒到端粒的完整基因组序列。

    2、研究结果

    通过8号染色体完整序列的组装,填补了已有人类基因组中长期存在的5个空白区域,其中包含2.08 Mb的着丝粒α卫星阵列、对疾病风险至关重要的β-防御素基因簇以及染色体8q21.2位点上863 kb的可变数目串联重复序列,该序列可以作为新着丝粒。进一步对着丝粒α卫星阵列的表观遗传特征进行分析发现,着丝粒α-卫星阵列通常是甲基化的。除了富含CENP-a核小体的不同高阶α-卫星序列的73 kb低甲基化区域,这与动粒结合位点的特征相一致。此外,该研究还组装了黑猩猩、红毛猩猩和猕猴8号染色体同源着丝粒的高质量草图,以重建其进化史。系统发育分析表明,黑猩猩的8号染色体的着丝粒结构与人类的最为相似;所有类人猿高阶α-卫星序列聚在一个分支,而单体α-卫星序列分为两个间隔数千万年的分支。该研究为从进化上理解人类8号染色体着丝粒区域的组织结构提供了新见解。

    图1 人类8号染色体完整组装与解析(图片引自文献[1])

    二、案例二:人类基因组首次实现X染色体的完整组装

    文章题目:Telomere-to-telomere assembly of a complete human X chromosome

    发表时间:2020年7月

    发表期刊:Nature(IF=42.772)

    1、材料方法

    利用PacBio、Bionano等多种技术对CHM13进行测序,获得了一个超越GRCh38连续性的人类组装基因组,通过进一步的手动纠错,最终实现了X染色体从端粒到端粒的组装。

    2、研究结果

    该研究重建了人X染色体上近3.1 Mb的着丝粒卫星DNA阵列(DXZ1),并填补了目前参考基因组中存在的29个缺口,其中包括来自人类假常染色体区域和癌症-睾丸两性基因家族(CT-X和GAGE)的新序列。该研究进一步将完整的X染色体与纳米孔测序数据相结合,首次绘制出了复杂串联重复序列和卫星阵列的甲基化图谱。在X染色体臂两端的大多数假常染色体区域(PAR1和PAR2)的甲基化减少,这与之前已报道结果一致;其次,在X染色体的DXZ1着丝粒阵列中发现了约60 kb的一个甲基化减少的区域。进一步验证发现,在8号染色体上着丝粒DNA阵列(D8Z2)中也存在甲基化减少的现象。该研究表明,精确地生成人类染色体的碱基序列是可能实现的,从而进一步获得完整的人类基因组序列,深入挖掘基因组中遗传变异资源。

    图2 人类X染色体的完整组装和解析(图片引自文献[2])

    三、案例三:香蕉近完整基因组组装

    文章题目:Telomere-to-telomere gapless chromosomes of banana using nanopore sequencing

    发表时间:2021年4月

    发表期刊:BioRxiv

    1、材料方法

    利用长读长测序结合Bionano光学图谱等多种技术手段,获得了双单倍体香蕉(DH-Pahang)的高质量的近完整基因组。

    2、研究结果

    组装得到的香蕉基因组中,11条染色体中的5条仅由单条contig组成,即实现端粒到端粒的无间隙组装。在新组装基因组每条染色体上都能明确识别到名为Nanica的长散在重复序列(LINE),该重复序列经细胞遗传学分析,已被证实存在于染色体着丝粒区域。此外,与着丝粒Nanica簇共定位的5S rDNA串联重复序列也被明确识别。该研究还发现了许多含有萜类合成酶或抗病基因等重要基因家族的串联重复序列,为寻找抵抗黑条斑病等香蕉作物毁灭性疾病基因提供了重要资源。香蕉近完整基因组所提供的这一高分辨率的着丝粒区域为研究卫星重复序列是如何在着丝粒区域产生和进化开辟了新的途径。

    图3香蕉近完整基因组和已有基因组的比较 (图片引自文献[3])

    四、案例四:水稻近完整基因组组装

    文章题目:Assembly and Validation of Two Gap-free Reference Genomes for Xian/indica Rice Reveals Insights into Plant Centromere Architecture

    发表时间:2020年12月

    发表期刊:BioRxiv

    1、材料方法

    利用三代PacBio HiFi和CLR等测序技术组装出了两种优质籼稻品种珍汕97(Zhenshan 97)和明恢63(Minghui 63)的近完整基因组。

    2、研究结果

    在新组装的ZS97RS3基因组和MH63RS3基因组中,分别实现了7条和10条从端粒到端粒的完整染色体序列,并且其中的着丝粒位置和序列信息被ChIP-Seq和FISH实验证实。以MH63RS3为参考基因组,首次确定了水稻着丝粒的大小为0.8-1.8Mb,并在着丝粒区域中鉴定出超1500个基因,其中有15.6%的基因是积极转录的。在着丝粒区域存在丰富的TEs,尤其是LTR/gypsy TEs占比高达90%,这对于完整着丝粒区域组装而言是非常明显的障碍。进一步将ZS97和MH63的核心着丝粒区域与代表亚洲栽培水稻群体结构的15个高质量基因组进行比较,揭示了水稻着丝粒区域的保守性和差异性。该研究为全面研究植物基因组结构和功能以及培育21世纪气候适应性品种奠定了坚实的基础。

    图4 两个水稻品种近完整基因组组装和染色体结构比较(图片引自文献[4])

    五、案例五:首个人类基因组完成图

    文章题目:The complete sequence of a human genome

    发表时间:2021年5月

    发表期刊:BioRxiv

    1、材料方法

    利用高精度PacBio HiFi测序结合超长读长测序等多种技术组装出了CHM13的完整基因组即T2T-CHM13v1.1,获得了人基因组完成图。

    2、研究结果

    T2T-CHM13v1.1完整基因组中包括了22条人类常染色体和x染色体的端粒到端粒的无GAP组装,包括3,054,815,472 bp 核DNA和以及16,569 bp的线粒体基因组(CHM13没有Y染色体)。与GRCh38相比,新组装的基因组中增加或修正了238 Mbp的序列。在该序列中,大部分由着丝粒卫星DNA序列(180 Mbp)、片段重复序列(68 Mbp)和rDNA 序列簇(10 Mbp)组成,由此表明,被鉴定为着丝粒和片段重复的区域存在重叠。在这些序列区域中,有182 Mbp的序列在之前CHM13任何一次比对中都未发现,因此,这对CHM13的组装而言是全新的。T2T-CHM13v1.1显著增加了人类基因组中已知基因和重复序列的数量,且首次揭示了所有5个近端着丝粒染色体短臂的完整序列,大小为10.1 Mbp到16.7 Mbp,总计66.1 Mbp的新序列。该研究成果作为人类测序史上里程碑事件,有助于发现有关人类健康和疾病遗传学的新信息,进一步解锁复杂基因组区域的变异和功能研究。

    图5 人基因组完成图的组装(图片引自文献[5])

    着丝粒是细胞分裂过程中保持染色体完整性的重要组成部分,且保证了染色体遗传的保真性。无论在人基因组中还是动植物基因组中,实现端粒到端粒无间隙染色体的组装,对于深入解析基因组着丝粒这一复杂区域,进一步挖掘其相关重要遗传变异有着重大意义。

    参考文献

    [1] Logsdon G A, Vollger M R, Hsieh P H, et al. The structure, function and evolution of a complete human chromosome 8[J]. Nature, 2021:1-7.

    [2] Miga K H, Koren S, Rhie A, et al. Telomere-to-telomere assembly of a complete human X chromosome[J]. Nature, 2020.

    [3] Belser C, Baurens F C, Noel B, et al. Telomere-to-telomere gapless chromosomes of banana using nanopore sequencing. 2021.

    [4] Song J M, Xie W Z, Wang S, et al. Assembly and Validation of Two Gap-free Reference Genomes for Xian/indica Rice Reveals Insights into Plant Centromere Architecture. 2020.

    [5] Sergey N, Sergey K, Arang R, et al. The complete sequence of a human genome. 2020.

    相关文章

      网友评论

          本文标题:一文了解为什么要实现完整染色体组装?

          本文链接:https://www.haomeiwen.com/subject/azvleltx.html