美文网首页
T2T基因组测序的那些事儿

T2T基因组测序的那些事儿

作者: 凌恩生物 | 来源:发表于2022-04-12 14:51 被阅读0次


        最近被Science特刊连续6篇长文发布的端粒到端粒(T2T)联盟的最新人类的参考基因组(T2T-CHM13)刷屏了。该成果包含了除Y染色体外,人类所有22条常染色体和X染色体的无缝组装,完成了人类基因组计划中8%尚未解决的具有挑战性的任务。至此,人类完整基因组测序计划正式完成,全球科学家近40年的努力也终收获一个满意的成果,是人类基因组测序研究的重大里程碑。

图1 人类基因组结构特征

        这项近3年研究项目的关键进展,在于应用长读长(PacBio sequencing and Oxford Nanopore)测序技术填补人类基因组遗留的gap区域,完成端粒到端粒(T2T)的组装。

        那么什么是T2T基因组测序呢?它的组装为什么这么难?今天我们就来和大家聊一聊T2T基因组测序的那些事儿~

人类基因组存在的GAP区域

       首先我们了解一下什么是端粒。端粒(Telomere)是真核生物线性染色体的末端部分,这一特殊结构区域对于染色体的结构和稳定起重要作用。端粒DNA是由简单的DNA高度重复序列组成的,组装存在难度。

        许多研究表明,在新细胞中,细胞每分裂一次,染色体顶端的端粒就缩短一次,当它不能再缩短时,细胞就无法继续分裂了。因此,端粒被科学家们视为“生命时钟”

图2 端粒结构特征

       人类基因组图谱的最新版本于2013年发布,被称为GRCh38。从那时起,它就被反复修补,至今仍然存在gap——缺少超过8%(包括所有着丝粒区域卫星阵列、端粒、基因组大段重复以及rRNA区域)长期以来都处于序列不明或未知的状态。这些缺失的基因组藏于大量重复基因拷贝的长序列中,短读长技术以及组装技术是无法完善的。

图3 不同版本人类基因组释放时间

什么是T2T(Telomere-to-telomere)基因组?

       三代测序技术的发展,特别是高准确性的PacBio HiFi测序和高连续性的ONT ultra-long 测序强强联合,克服了着丝粒或高重复区域的组装困难问题,染色体的连续性和完整性大大提高,为T2T基因组组装奠定了基础。

因此,T2T基因组就是获得高准确性、高连续性、高完整性的端粒到端粒的高质量基因组

       本次发布的人类T2T-CHM13新基因组填补的空白包括:所有的着丝粒卫星阵列,近端重复区域以及5个端中心染色体的短臂,解锁这些复杂基因组区域可以进行变异和功能研究。在这张人类基因组完成图中,研究者新增加或修正了238Mb的序列,其中182Mb是全新的序列,并注释到2,226个新基因。因此,该结果消除了每个样本中数以万计的假阳性变异,包括使269个医学相关基因检测的假阳性降低了90%以上。

       对着丝粒相关序列的分析揭示,着丝粒的位置与其周围DNA的分层重复扩增进化之间存在较强关联。此外,对不同个体X染色体着丝粒的比较表明,在这些复杂且快速进化的区域内存在着结构、表观遗传和序列的高度差异。

图4 基于HiFi数据组装的人类CHM13 genome 图5 T2T-CHM13的基因组特征和资源 图6 无间隙组装阐明着丝粒的进化

T2T基因组组装为什么那么难?

       目前,T2T基因组组装依赖于三代测序技术的发展,高深度的高精准PacBio HiFi、ONT ultra-long以及HiC测序技术,通过结合Hi-C技术获得基因在染色体上的相对位置信息完成基因组染色体水平的组装。对于复杂区域更需要丰富的组装经验进行手动调节,最终获得高质量的T2T参考基因组序列。

        但是,仍然难以读通一些物种中重复序列较长的区域以及着丝粒区域,而本次人类基因组新成果亦是避免了对正常人细胞中的两个不同的X染色体进行测序。相反,通过使用一个人类葡萄胎衍生的单倍体细胞系——具有两个相同的X染色体,规避了组装二倍体基因组的两个单倍型的复杂性

  图7 人类染色体二倍体

        因此,直接测通二倍体正常人的高度重复染色体区域还需更多研究,以及更加深入完整的组装。当然,对于其他并没有像人类基因组研究那么透彻的物种来说,组装“钉子户”着丝粒以及高重复区域导致的拼装缺口,组装难度会更大。因此,要得到一个物种完整高质量的T2T基因组还是具有相当大的难度

参考文献

[1]The complete sequence of a human genome. Science, 2022.

[2]A complete reference genome improves analysis of human genetic variation. Science, 2022.

[3]Segmental duplications and their variation in a complete human genome. Science, 2022.

[4]Complete genomic and epigenetic maps of human centromeres. Science, 2022.

[5]From telomere to telomere: The transcriptional and epigenetic state of human repeat elements. Science, 2022.

[5]Epigenetic patterns in a complete human genome. Science, 2022.

相关文章

  • T2T基因组测序的那些事儿

    最近被Science特刊连续6篇长文发布的端粒到端粒(T2T)联盟的最新人类的参考基因组(T2T-CHM1...

  • T2T基因组

    what is T2T ? T2T(Telomere-to-telomere) 或Gapless 基因组是指基因组...

  • 测序基础介绍-NGS方法小结

    1 测序方法分类 2 基因组测序 2.1 全基因组测序 大型全基因组测序对人类、植物或动物基因组等大型基因组(>5...

  • 全基因组测序 从头测序(de novo sequencing)

    全基因组测序 全基因组测序分为从头测序(de novo sequencing)和重测序(re-sequencing...

  • 群体遗传学习笔记-测序技术学习

    重测序技术简介 全基因组重测序(Resequencing)是对已知参考基因组序列的物种进行不同个体间的基因组测序,...

  • 基因组 组装教程 (T2T)

    导读 本文将介绍T2T基因组,并提供一份基因组组装的资料,其中包含:基因组组装数据和组装策略介绍;染色体水平基因组...

  • 5.6 基因检测:在森林里找到一片黄色的树叶

    基因检测分类方法很多,最常见的是按检测范围分为:全基因组测序、靶向重测序。 全基因组测序 是分析基因组的最全面的方...

  • 基因组重测序与转录组联合分析简介

    基因组重测序是挖掘候选基因的重要手段,转录组测序则是研究基因表达量差异的主要方法。通过基因组重测序中的全基因组关联...

  • RPKM, FPKM, TPM

    什么是测序深度和测序覆盖度 测序深度(depth)是指测序得到的总碱基数与待测基因组大小的比值,可以理解为基因组中...

  • 学习小组Day7笔记--林枫

    测序原理: 应用领域: 1.基因组学(核酸序列分析) (1)全基因组测序(WGS)(2)全外显子组测序(WES)(...

网友评论

      本文标题:T2T基因组测序的那些事儿

      本文链接:https://www.haomeiwen.com/subject/ztfnsrtx.html