https://mp.weixin.qq.com/s/eZbMdVE-BRVRXC3SxmY3fw
https://mp.weixin.qq.com/s/MO5pJtPXOv-CwFKJIqa4Yg
https://mp.weixin.qq.com/s/w8ry_Y52SIM93M1bo8YdDQ
人类基因组数据是现代人类遗传学和基因组学研究重要的参考资源,其逐步更新和完善对人类基因组学相关应用至关重要,包括基因组比对、变异检测、功能注释、群体遗传学和表观基因组分析等。
虽然第一个人类参考基因组序列的发布距今已20多年,但目前的参考基因组仍存在少量错误,以及一些由于组装困难而遗留的空白区域。因此,像大多数技术驱动的重要资源一样,人类参考基因组也早该升级了。今年4月末,Science 期刊以特刊的形式发布了最新人类基因组计划完成的系列报道。人类泛基因组参考联盟(Human Pangenome Reference Consortium, HPRC)旨在创建一个更为精准和完整的人类参考基因组,该计划以图形为基础、以端粒到端粒的测序结果建立尽可能高质量的人类参考泛基因组。近日,HPRC在 Nature 上发表了题为“The Human Pangenome Project: a global resource to map genomic diversity”的观点文章,概述了人类泛基因组参考联盟的战略目标、挑战和机遇。希望与全球范围内的科学家和生物伦理学家共同创建一个完整的人类全基因组参考资源,使其更多地涵盖整个基因组范围内的变异信息,为更大规模人类基因组资源提供终极指南,为开发新的概念框架和分析方法,以构建下游分析和可视化的全基因组基础设施和工具奠定坚实基础。
一、HPRC的战略目标
全基因组是代表物种遗传多样性的多个个体的全基因组参考序列,这一概念最初是在细菌基因组中普及,现在已被应用到人类基因组学领域。全基因组数据的构建依赖于高通量测序仪器生产的高质量、分阶段的单倍型数据,高度准确和完整的单倍型基因组将被组织成一个基于图形的数据结构,用于全基因组参考序列的构建。HPRC通过整合国际科学界的观点,协调多学科合作发挥作用,召集跨机构和跨国研究团队,致力于样本收集、群体遗传多样性、分阶段测序和组装、构建全基因组参考的标准方法、后期资源改进和维护,资源共享和推广等工作。
“泛基因组”是代表物种遗传多样性的多个个体的整体基因组序列。HPRC通过多学科合作发挥作用,召集跨机构和多国工作组,致力于样本收集和同意、群体遗传多样性、技术和生产、分阶段和组装、泛基因组参考构建方法、资源改进和维护、资源共享和推广。HPRC包括几个组成部分:
- 收集:1000个基因组样本开始该项目,随后将通过社区参与和招募收集更多样本。样本选择工作将确保基于图形的参考捕获全球人类基因组多样性。
- 序列:长读和长程技术用于生成基因组图,并在难以组装的基因组区域填补空白。
- 组装:T2T完成的二倍体基因组将促进变异发现,尤其是在复杂、难以组装的基因组区域。
- 构造:可扩展的生物信息学方法组装、质量控制、调用变量和基准图组装精度。该图用基因描述和转录组数据进行注释,使其更容易理解和解释。
- 利用:跨科学和利益相关者社区的合作将创造一个新的分析工具生态系统。临床应用和研究使用将涉及结果的分析、验证、解释和公布。
- 推广:HPRC推广社区的成员参与并教育用户社区,广泛分享所有基因组产品和信息学平台。
- ELSI:ELSI学者将制定选择流程和政策框架,以满足研究者的需求,并尊重研究伙伴的自主性和文化规范。
二、初始数据生成和发布
基因组学的技术进步使得长片段重复序列的测序、染色体的物理映射以及母系和父系遗传单倍型的分阶段组装成为可能。在项目的初始阶段,研究团队评估了多种测序技术和基因组组织算法,以确定平台的最佳组合,并开发了一个自动流水线,为生成最完整和准确的基因组把好技术关。分析发现,利用亲代短读长序列数据对后代长读长数据的单倍型进行排序的方法得到的每个单倍型是最完整的且含有最少的结构错误。在未来,研究团队将进一步优化测序、装配和分析方法,以创建完整T2T二倍体基因组为目标,包括重复和结构可变区域,如着丝粒、端粒。创建高质量的完整基因组还将推动二倍体基因组组装和质量控制工具的开发和改进。
图2. 基因组测序及组装标准化流程,来源:Natureg在该项目的初始阶段,组织对单个个体 HG002 进行了测序。评估了多种测序技术和组装算法,以确定平台的最佳组合,并开发了一个自动化流程,生成最完整、最准确的基因组代表(图2)。测试的技术包括 Pacific Biosciences(PacBio)和/或用于生成重叠群的 ONT长reads、10XG、Hi-C、Strand-seq 长 reads 和/或用于 scaffolding 染色体的 BioNano 光学图谱。这项试点基准研究为测序技术和计算方法制定了标准,这对 HPRC 的成功至关重要。
研究者发现,使用亲本短reads序列数据对子代长读数据的单倍型进行排序的三种方法得到了每个单倍型最完整的组合,结构错误最少。此外,所有试图分离单倍型序列的方法在生成高度连续的组装方面比那些将单倍型之间的一致性合并到一个集合中的方法表现得更好。为重叠群提供最高单倍型分离精度的算法hifiasm,它将每个单倍型的reads分离合并到组装图中。与scaffold相比,contig的生成在结构上更精确。在这些基础上,利用hifiasm组装了来自亲子三人组的47个1KGP基因组,创建了高质量的二倍体纯重叠基因组组装。未来将进一步优化测序、组装和分析方法,目标是创建全阶段T2T二倍体基因组,包括重复和结构可变区域,如着丝粒、端粒和片段复制。研究者预计,该项目中创建的高质量组装将推动二倍体基因组组装和质量控制的工具创建和改进,其中新的和最近创建的现有工具(来自CHM13的T2T组装)将应用于二倍体基因组组装。
HPRC第一次数据发布包括47名参与者的测序数据,主要来自1KPP。所有测序数据都是公开的,可以从AWS公共数据集程序下载,并且可以使用AWS云进行分析。
三、人类完整参考泛基因组的构建
HPRC正在构建一个包含三个互补部分的参考泛基因组:
(1) 单倍型,即输入序列集内的序列;
(2) 全基因组比对,可以有效地将每个输入单倍型作为参考嵌入到该序列图;
(3) 参考坐标系统,这是一个可兼容的坐标系统和序列集,可用于后续的补充和更新。**单倍型提供了数以百计的基因组个体代表,跨越全球多样性。
- 每一个组装完成的单倍型将单独作为参考用于目前的人类泛基因组组装;
- 全基因组比对代表了个体集合之间的同源关系评估。这种规范的比对将支持单倍型之间的坐标转换,并定义等位基因关系,将为许多新兴的全基因组分析工具和流程提供基础;
- 坐标系统提供了一种全局的、明确的方法来指代泛基因组中的所有变化,它使单倍型中的所有变体成为一类对象,可以同等地引用它们。
最终,它将提供一个更完整的方法引用现有线性引用中不包含的变体,这对构建在泛基因组引用上的数据库和工具很有用。
图3. 人类参考泛基因组的构建及应用,来源:Nature四、与疾病研究的相关性
作者在文章中指出,正在构建的人类泛基因组资源和开发的方法将深刻影响人类疾病和精准医学的遗传基础研究。使用更加完整的全基因组参考资源有三个非常明显的优势:
- 首先,当对患者样本进行测序和分析时,一个包含人类遗传多样性的更完整的参考基因组将产生更少的模糊映射和更准确的全基因组范围内的拷贝数变异分析,这将改善基因诊断和变异的功能注释。
- 其次,这一资源将有助于发现疾病风险等位基因和以前未观察到的罕见变异,特别是在标准短读长测序技术无法获得的区域。例如那些重复扩增位点,通过长读长测序对这些位点进行解析,提高了基因分型的能力,使得通过全基因组关联研究和定量性状位点鉴别方法去发现新的遗传关联成为可能。
- 第三,完整全基因组代表了人类基因变异如何被发现并被鉴定的根本性转变,从简单地将患者序列比对到一个参考基因组上,发展为通过构建分阶段的基因组组合,并将它们与参考图表比对,以在碱基对水平上精确定位所有的基因差异。
总之,随着长读长测序成本的降低和全基因组方法的发展,未来患者样本的检测可能会更适合用长读长测序技术进行,以提高灵敏度和准确性。
五、结 语
目前的GRCh38人类参考基因组是众多基础和临床研究的重要资源,但很明显,它还是可以被持续改进和更新的。通过对公共和私营部门的多年战略投资,HPRC分析并确定了更好地代表全球人类基因组多样性的技术和方法。
概括来说,人类全基因组参考数据将收集由高效算法创新生成的精确单倍型基因组组合,而这一策略也终将被科学界广泛接受和使用。其中,个体基因组的收集,包括序列信息、基因组坐标和注释,将是人类基因组多样性的一个重要资源。最初的人类基因组计划的初步完成使人类健康和基因组医学研究取得了重大进展,现在,也是时候构建更具包容性、完整性、准确性的人类基因组资源,用来更好地体现人类基因组的多样性,最终更好地为人类服务。
本研究的目的是记录pangenome中人类基因组之间的遗传相似性和差异。然而,即使有高质量的基因组组装,全面的变异检测仍然是一个挑战。还没有单一的数据类型或生物信息学方法在所有变异类别和基因组区域中实现高性能。因此,正在寻求多种互补的变异检测方法,使用全基因组多组装比对、成对组装-组装比对和传统的基于参考的读取比对的组合。
参考文献:
1. Wang, T., Antonacci-Fulton, L., Howe, K. et al. The Human Pangenome Project: a global resource to map genomic diversity. Nature 604, 437–446 (2022).
2. Rhie, A. et al. Towards complete and error-free genome assemblies of all vertebrate species. Nature 592, 737–746 (2021).
3. Logsdon, G. A. et al. The structure, function and evolution of a complete human chromosome 8. Nature 593, 101–107 (2021).
· END ·
网友评论