美文网首页
迈向群体规模的长读长测序

迈向群体规模的长读长测序

作者: 贝瑞科服 | 来源:发表于2021-08-17 15:47 被阅读0次

    影响基因的结构变异(Structural variations,SVs)很常见,据统计,SV造成的两个人类单体型之间的碱基对差异超过任何其他形式的遗传变异所造成的差异[1]。此外,与SNV相比,大片段SV与全基因组关联信号相关的可能性是前者的3倍,影响基因表达的可能性是前者的30倍以上[2,3]。目前三代测序已在SV检测和人类医学研究中大显身手,并逐渐向群体规模的SV研究迈进,层出不穷的高分文章也证明了这种大规模的研究将持续存在,并必将持续引爆基因组遗传变异研究的热点。接下来将盘点一下群体规模的三代长读长测序检测SV在人类研究中的应用情况。

    图1 群体规模的三代长读长测序研究遗传变异汇总(图片引自文献[4])

    一、发现新的结构变异,研究以往难以表征的区域

    遗传学领域的核心是遗传变异研究。且一般的研究关键在于:全面发现变异体,准确测定等位基因频率,以及理解不同变异模式及对基因表达和外在表型的影响。因此,全面发现基因组的变异至关重要。由于SV的复杂性,准确识别SV是非常复杂的,三代长读长测序显著改善了二代短读长测序对于SV检测的准确性[5]和检出率低[6]的难题,在SV检测方面有天然优势,可以全面表征基因组的SV,研究以往难以表征的区域。

    2021年4月Science发表的人基因组及SV的研究中[7],研究者采用PacBio HiFi(>40X)、PacBio CLR(>20X)和及Strand-seq技术,组装并获得了32个人类基因组的64个区分单倍型的组装结果,并根据组装的单倍型与人类参考基因组GRCh38之间的直接比较,全面发现人基因组遗传变异。研究共发现107,136个SVs,与在相同样本上的短读长(Illumina,>30X)测序检测SV的相比,发现率增加了2.6倍,其中68%是新发现的SV。SV检测敏感性增加主要来源于节段重复和简单重复区域的小型SV(<250bp),其SV检测敏感性增加了8.4倍。

    图2 长读长测序和短读长测序SV检测数目及区域情况比较(图片引自文献[7])

    二、助力结构变异金标准建立,为基因组和临床医学研究提供便利

    准确识别SV需要描述SV的多方面特征,包括变异类型、序列信息、长度和断点位置等。由于SV的复杂性和不同平台及策略SV检测的不一致性,SV检测的综合评估一直是个问题。而生成特异的、针对特定人群或疾病的金标准参考SV集非常重要,有助于收集和保存人类遗传资源,为基因组和临床研究提供物质基础。三代测序由于其长读长和无序列偏好性的优势,在构建SV标准集合时不可或缺。

    2021年3月Genomics Proteomics Bioinformatics发表的构建亚洲人SV金标准集的研究中[8],研究者采用PacBio HiFi(22X)、PacBio CLR(109X)、Oxford Nanopore(ONT,104X)和Biaonano(114X)测序技术对参考材料CNGB030001进行测序,通过基于比对和基于从头组装的方法进行SV检测,并对候选SV集进行过滤和整合,共发现8,938个高置信度SVs,通过Sanger验证和单倍型组装验证,最终构建了含有6,882个SVs的金标准集合。采用该SV标准集检查不同测序技术的SV检测的稳健性(F1值),结果表明,HiFi测序表现最好,CLR和ONT次之(CLR优于ONT),Bionano很差。

    图3 集成不同测序技术和方法建立SV基准的工作流程(图片引自文献[8])

    三、获得大规模测序数据,揭示结构变异在人类表型中的作用

    SV是个体间基因变异的及群体分化的重要表现,SV可能通过改变基因序列或拷贝数,改变顺式调控序列的组成、位置,或通过改变三维基因组结构来影响基因的表达,进而影响生物的表型。三代测序对SV的深入挖掘有助于理解SV的多样性及其对表型形成的影响。

    2021年6月Nature Genetics发表的冰岛人SV研究中[9],研究者采用三代长读长测序技术对3,622名冰岛人进行测序,测序个体的覆盖深度的中位数是17.2。研究确定了每个人的SVs中位数为22,636个,通过合并及过滤等处理,最终发现133,886个可靠的SV等位基因。通过对冰岛人的表型直接测试及基于连锁不平衡(LD)的方法探索SV对疾病和其他性状的影响。结果发现了多个影响表型形成的SV,如PCSK9第一个外显子的罕见缺失与较低的低密度脂蛋白(LDL)胆固醇水平有关;ACAN的可变数目的串联重复(VNTR,57bp基序重复数不同)与身高相关;NACA中的VNTR(69bp基序重复数不同)与心房纤颤相关。

    图4 PCSK9的罕见缺失与较低的LDL胆固醇水平有关(图片引自文献[9])

    四、挖掘结构变异群体特征,探究人类群体环境适应性

    SV是塑造人类基因组进化和功能的重要突变形式,为群体进化提供了原始材料和适应性基础。作为影响基因组进化和功能的重要突变力,面对由迁移负荷引起的基因流压力,SV可以产生不相容的等位基因,使有益的变异降低与不适应的基因组背景重组的风险,从而保持等位基因频率(AF)向环境梯度倾斜。三代测序对SV的深入挖掘有助于更好地理解人类遗传多样性、人类进化历史以及推动人类环境适应性的研究。

    2021年5月Genome Biology发表的藏族人SV特征的研究中[10],研究者采用三代长读长测序技术对15个藏族人和10个汉族人进行测序(覆盖深度的为10~20X),构建了中国藏族和汉族人群中的SV图谱。结果发现,平均每个样本可识别15,813个SVs,合并及过滤后共获得41,792个SVs的非冗余集。以三代检测的SV为标准,对276个二代短读长测序数据进行SV分型,并计算藏族人和汉族人之间的固定指数(FST)。最终确定了69个在藏族人和汉族人人群之间有显著差异的SVs,共筛选得到80个与高原环境适应性相关的候选基因,其中28个基因已经在以往的高原环境适应性研究中得以证实,另有33个基因具有与缺氧直接或间接相关的特征。功能富集分析发现,这些候选基因与缺氧应答、血管舒张和冷诱导产热的等功能显著相关。

    图5 高原适应性候选基因筛选与功能富集(图片引自文献[10])

    五、测序策略及分析策略

    群体规模的长读长测序研究SV测序策略通常分为三种:全面覆盖方法,混合覆盖方法和混合测序方法[4]。全面覆盖方法指所有样本都通过长读长测序以中到高覆盖率进行测序;混合覆盖方法指一部分样本通过长读长测序以中到高覆盖率进行测序,其余样本通过长读长测序使用低覆盖率进行测序;混合测序方法指一部分样本通过长读长测序以中到高覆盖率进行测序,其余样本通过短读长测序进行测序。不同策略会影响检测群体中常见或罕见变异事件的检测能力。

    基于长读长测序进行SV分析主要有两种策略:基于比对分析和从头组装分析。基于比对分析指将单个样本的测序数据与参考基因组进行比对直接检测SV;从头组装分析指将组装基因组和参考基因进行比较进而检测SV[4]。此外,基于混合测序方法检测SV的方法也很常见,主要以长读长检测的SV为标准,利用二代数据进行SV分型,获得群体SV数据集,进而进行群体SV分析[11,12]。

    图6 群体规模的三代长读长测序策略(图片引自文献[4])

    六、不同测序与分析策略的比较

    根据不同的研究需求、应用场景和成本需求,灵活选择不同的测序策略和分析策略。

    表1 测序策略[4] 表2 分析策略[4,11,12]

    建议采用全面覆盖的方法和基于比对分析的策略进行群体规模的长度长SV研究,目前大多数文章都采用该策略[4],研究时可选择群体中的代表性个体材料,15~20X的测序深度,进行群体SV的全面研究。

    参考文献:

    1. Eichler EE. Genetic variation, comparative genomics, and the diagnosis of disease[J]. The New England Journal of Medicine, 2019, 381(1):64-74.

    2. Sudmant PH, Rausch T, Gardner EJ, et al. An integrated map of structural variation in 2,504 human genomes[J]. Nature, 2015, 526:75-81.

    3. Chiang C, Scott AJ, Davis JR, et al. The impact of structural variation on human gene expression[J]. Nature Genetics, 2017, 49:692-699.

    4. De Coster W, Weissensteiner MH, Sedlazeck FJ. Towards population-scale long-read sequencing[J]. Nature Reviews Genetics, 2021, 1–16.

    5. Sedlazeck FJ, Rescheneder P, molka M, et al. Accurate detection of complex structural variations using single molecule sequencing[J]. Nature Methods, 2018, 15(6):461-468.

    6. Mahmoud M, Gobet N, Diana Ivette Cruz-Dávalos, et al. Structural variant calling: the long and the short of it[J]. Genome biology, 2019, 20(1):246.

    7. Ebert P, Audano PA, Zhu Q, et al. Haplotype-resolved diverse human genomes and integrated analysis of structural variation[J]. Science, 2021, 372(6537):eabf7117.

    8. Du X, Li L, Liang F, et al. Robust benchmark structural variant calls of an Asian using the state-of-art long fragment sequencing technologies[J]. Genomics Proteomics Bioinformatics, 2021, S1672-0229(21)00046-2.

    9. Beyter D, Ingimundardottir H, Oddsson A, et al. Long-read sequencing of 3,622 Icelanders provides insight into the role of structural variants in human diseases and other traits[J]. Nature Genetics, 2021, 53(6):779-786.

    10. Quan C, Li Y, Liu X, et al. Characterization of structural variation in Tibetans reveals new evidence of high-altitude adaptation and introgression[J]. Genome Biology, 2021, 22(1):159.

    11. Zhou Y, Minio A, Mélanie Massonnet, et al. The population genetics of structural variants in grapevine domestication[J]. Nature Plants, 2019.

    12. Audano PA , Sulovari A , Graves-Lindsay TA , et al. Characterizing the major structural variant alleles of the human genome[J]. Cell, 2019.

    相关文章

      网友评论

          本文标题:迈向群体规模的长读长测序

          本文链接:https://www.haomeiwen.com/subject/jokibltx.html