Cell | 复发性倒位多态性与遗传不稳定性和基因组疾病相关
原创 huacishu 图灵基因 2022-06-15 07:03 发表于江苏
收录于合集#前沿生物大数据分析
撰文:huacishu
IF=41.582
推荐度:⭐⭐⭐⭐⭐
亮点:
1、作者通过整合多种基因组技术,在41个人类基因组中发现了729个倒位现象;
2、作者认为,倒位复发导致杂合子携带者数量增加和结构片段重复(SD)多样性增加,这增加了群体的易变性,并导致特定单倍型易患致病的拷贝数变异(CNV)。
近日,华盛顿大学医学院Evan E. Eichler教授课题组在国际知名期刊Cell在线发表题为“Recurrent inversion polymorphisms in humans associate with genetic instability and genomic disorders”的论文。与拷贝数变异(CNV)不同,倒位仍然是一个未被充分探索的遗传变异类型。通过整合多种基因组技术,作者在41个人类基因组中发现了729个倒位。在L1逆转座过程中,大约85%的倒位形成2kbp的双嵌合体;80%的较大倒位是平衡的,影响核苷酸的数量是CNV的两倍。平衡倒位显示常见变异过多,72%的变异两侧有片段重复(SDs)或反转录转座子。
由于侧翼重复序列促进非等位同源重组,作者开发了互补的方法来识别复发性倒位形成。作者描述了40个包含0.6%基因组的复发性倒位,显示倒位率高达2.7 ×10-4/基因座/代。复发性倒位表现出性别染色体偏好,并与基因组疾病关键区域共定位。作者认为,倒位复发导致杂合子携带者数量增加和结构SD多样性增加,这增加了群体的易变性,并导致特定单倍型易患致病的拷贝数变异CNV。
使用41个不相关的人类样本(代表729个倒位位点)生成了一个综合调用集,包括:
(1)L1移动元素插入多态性内部的330个倒位;
(2)292个平衡倒位;
(3)40个反向复制;
(4)29个结构复杂的位点;
(5)GRCh38中38个可能的装配错误或罕见的次要等位基因(图1A)。
作者设计了一种结合链序列和长读的方法,将倒位放入全长染色体单倍型中,并发现平均11.6 Mbp被反转,相当于单倍体基因组的0.39%(图1B)。这是受单核苷酸多态性(SNP)影响的碱基对数量的四倍,是在阶段性组装中受缺失和插入SVs影响的碱基对数量的两倍。大的(>100 kbp)平衡倒位在染色体1、2、7、10、15、16和17上最为丰富,与SDs相关(图1C)。Strand-seq产生的倒位碱基对数量最多,这与它发现基因组倒位的能力一致,而不管侧翼重复的长度如何,而长时间读取的数据增加了对小于100 kbp事件的敏感性(图1D)。
根据上述报告,作者的综合调用集包含100个以前未报告的倒位。这些倒位跨越约39 Mbp,其中5个大于1 Mbp,包括来自墨西哥供体(NA19650)的2号染色体上约23.2 Mbp的着丝粒周围倒位(图1E)。使用PanGenie产生的SNP基因型,通过寻找共享的罕见SNP,推断1000个基因组项目(1KG)样本(n=3202)中存在这种倒位。该分析确定指数供体的母亲(NA19648)是该反转的唯一额外候选载体,支持其减数分裂分离。在这两个可疑的反转载体上进行了荧光原位杂交(FISH),验证了这两个载体(图1F)。还搜索了15q11.2-13.1倒位的大型(5 Mbp)携带者,发现1KG队列中有四个可能的携带者,所有这些都通过FISH验证。这些数据表明,来自调用集的阶段性倒位有助于在全基因组序列(WGS)数据中识别潜在携带者。
大多数序列分辨平衡倒位(132/183,72%)显示侧翼反转重复序列长度至少为200 bp(图2A)。这一比例与之前基于fosmid测序的结果一致,但超过了基于阶段性组装的插入和删除的估计。倒位的大小和侧翼重复序列的长度之间存在着全基因组的显著相关性(图2B)。
SD介导的倒位比其他类型的平衡倒位转化更多的基因(图2C),可能是因为它们的大小和移动元件插入偏向于基因这一事实。在序列分辨的平衡倒位中,28%(51/183)的断点缺少反转重复,其中23个伴有相邻的>50 bp大小的缺失或插入,或参与更复杂的SVs(图2B)。这种复杂性可能源于涉及替代非同源末端连接(NHEJ)、微同源介导末端连接(MMEJ)或微同源介导断裂诱导复制(MMBIR)的突变过程,而不是来自累积的SV。总的来说,数据表明,NAHR是平衡反转形成的主要机制,其中一小部分可能是由容易出错的DNA修复过程造成的。L1插入可以包含在后转位期间产生的倒置片段。L1 mRNA内的单链30端靶点复制(TSD)序列退火形成连接1(表示为Jct1;图2D),启动二级逆转录反应,导致两个cDNA产物在相反方向合成和连接,生成连接2(Jct2)。26%(330/1271)的分析多态性L1显示出特征性的50个反转序列,而其余的是全长(405)或50个截断(536)(图2E)。相对于可能反转长度的随机分布而言,反转段均短1.7倍,且大小变化较小。Jct2的位置聚集在L1的30端,88%(292/330)的断点出现在4000和6000碱基对之间(图2F)。
接下来,分析了269/330个非参考多态性事件中的Jct1,发现其中239/269个事件中存在1-9 bp的短插入和微同源性(图2G)。这些数据表明,退火先于Jct1的DNA修复。还观察到,在截断的L1插入物的50端,MMEJ的明显特征以及全长L1s在该连接处的罕见微同源性(图2G),支持存在不同的全长L1s整合机制。然后,作者分析了多态性事件的273/330内部反转,发现额外的序列复杂性,Jct2的L1序列频繁短缺失(61%,166/273)和重复(33%,89/273)(图2H)。总的来说,这些序列特征与之前的数据一致,表明MMEJ在逆转转座中间产物的解析中起着重要作用,导致L1序列的内部反转或截断。
值得注意的是,随着更多基因组的加入,倒位发现率迅速饱和,这在非非洲和非洲人群中都可以看到(图3A),尽管非洲人群表现出更大的遗传多样性。与插入和删除SVs相比,新变体发现率显著降低了2.4倍(图3A)。同时,还观察到,与其他SV类相比,常见的反转等位基因数量过多(67%)。
作者假设,常见平衡倒位的过度可能是由于人类的复发性突变,通过反转重复之间的NAHR介导。为了验证这一假设,作者设计了两种互补的方法来推断反转切换(图3B)。首先开发了一种基于切换指示SNP(tiSNP)的方法,基于单倍型解析的链序列读取来识别具有单一反转起源的SNP差异。对每个反转的TISNP信号进行聚合,以找到对反转切换的支持。
此外,作者还开发了一种基于单倍型的方法来推断基于完全整合的阶段性遗传变异集的切换。将基于合并的方法应用于阶段性SNP,以找到支持反转复发的证据。将这两种方法应用于之前研究,作为阴性对照,测试了著名的706 kbp 17q21.31反转(图3C),该反转假设在过去230万年中形成过一次。作为阳性对照,将结果与5.3-Mbp 8p23.1倒位(图3D)进行了比较,认为其复发率有限。使用第一种方法,发现17q21.31和8p23.1倒位多态性的TISNP分别为0%(0/3834)和9.2%(1366/14801)。在8p23.1整个长度上可以看到TISNP(图3D)。与这些发现一致,基于单倍型的方法证明了8p23.1倒位在多个水平上多次复发的明确证据,与17q21.31倒位的单一起源形成鲜明对比。基于单倍型的主成分分析和基于层次聚类的分析表明,虽然17q21.31处的所有反向单倍型形成一个不同于直接定向单倍型的聚类,但8p23.1位点在相同的聚类中显示反向和直接定向单倍型(图3C,3D)。
作者还更详细地分析了染色体11p11上的一个复发性倒位。确定了54个TISNP,分布在倒位区域(图3E)。基于单倍型的方法显示,在11p11发生了八个独立的倒位事件。从机理的角度来看,发现侧翼反转重复序列的长度及其序列同一性与反转复发呈正相关。多元logistic回归分析表明,反转状态的主要驱动因素是侧翼反转重复长度。
此外,常染色体和X染色体上的大多数(72%,23/32)复发性倒位显示R10 kbp长侧翼倒位SDs,序列同源性高(R79%)。综合起来,这些分析强烈暗示NAHR是反转复发的主要驱动因素,有助于解释高MAF、复发性倒位和侧翼SDs之间的密切关联。
在Y染色体的假常染色体区域之外缺乏减数分裂重组,有利于明确的系统发育,这有助于复发分析(STARMethods)。在作者的研究中,16名男性样本的Y染色体上有15个倒位,其中8个是以前报道过的。大多数(13/15,87%)两侧是SDs和反转的10个蛋白质编码基因和14个转录假基因(图4A)。在11个通过基因型质量筛选的平衡倒位中,将8个分类为复发性。这些复发性反转跨越3.6 Mbp,相当于Y染色体序列的6%。与常染色体相比,Y染色体上的切换倒位与单事件倒位的相对比例高出7倍(图4B),这与倒位复发的性染色体偏向相一致。
在已经确定了30多个基因组区域中,反复出现的微缺失和微重复与儿童发育迟缓和神经精神障碍相关。使用全基因组置换分析来测试倒位多态性是否与这种已知的疾病CNV相关。在调用集中,作者发现病态CNV和平衡反转之间存在显著的共定位(图5A)。除了WBS和KDV外,这还包括一些众所周知的基因组疾病,如Prader-Willi/Angelman综合征(PWAS)、Smith-Magenis/Potocki-Lupski综合征(SMPLS),以及与自闭症相关的15q13和16p11.2区域。值得注意的是,大多数关联是由经常性反转驱动的,其富集度为5倍(图5A)。这表明人类倒位的突变切换与与疾病相关的复发性CNV之间存在关系。作者发现79个平衡反转影响了1094个SD对的相对方向,其中86%(68/79)的反转同时改变了几个(多达112个)SD对的相对方向。将重点放在那些受单个反转位点影响的SD对上,只考虑那些超过90%的SD对(按长度加权)分别翻转为正方向或反方向的位点,从而避免了更复杂的SD区域。利用这种方法,分离出20个“潜在的CNV突变前状态诱导”和9个“潜在的CNV保护性”反转。例如,作者描述了3q29微缺失综合征侧翼的复发性倒位,它在一个关键区域侧翼重新定位了21 kbp SD(图5B)。在反向单倍型上,该SD相对于临界区远端的相应同源SD呈反向,而非反向单倍型则以直接方向显示该SD对。进一步发现与远端断点区域同源的SD的直接定向重复,这在直接定向单倍型中很常见,但在反向单倍型中完全没有(图5B)。
这些数据表明,3q29微缺失临界区两侧的复发性反转可能对病态CNV的形成具有保护作用。作者还分析了与15q13.3微缺失区重叠的1.5 Mbp复发性反转的结构。发现了两个大小为210 kbp的独立反转,其中包括先前参与15q13.3微缺失形成的CNPb重复序列的任一拷贝以及1.5 Mbp反转(INV-g)(图5C)。
作者假设,当b和b0倒位单独发生时,会为病态CNV的形成创造一种突变前状态。相比之下,b和b0的其他配置可能会导致INV-g复发。在两个单倍型结构中,涉及CNPa和b小白鼠的缺失,这可能会保护二者免受病态CNV和复发性反转的影响(图5C)。接着对基因组疾病交叉位点的倒位进行了更深入的分析。例如,发现与WBS相关的7q11.23反转(图5D)在临界区域(chr7:73113989-74799029)经历了三次复发倒位事件的切换。
先前有人提出,跨越该区域的倒位易导致病态CNV的形成;未来对患者队列的研究可能会解决7q11-23倒位单倍型的子集是否作为WBS的突变前状态。此外,作者观察到在2q13处的复发性倒位,与青少年肾结核和自闭症相关的重叠病态CNV(图5E)有关。预测两个SD对由于倒位而改变其相对方向。其中一个反向单倍型包含跨越该SD对的缺失,这可能赋予新生病态CNV保护作用。
对28个单倍型的组装进行调查,进一步揭示了SDs侧翼共同倒位的复杂性和多样性,其中大多数多态性(11/15,73%)出现在复发倒位附近。为了说明这个断点的复杂性,重点研究了染色体1p36.13,它与间质和末端缺失有关,并且发现了侧翼SDs的倒位多态性。对该区域光学图的手动分析揭示了异常的结构复杂性,有46个不同的单倍型结构,大小为723 kbp至1.2 Mbp,这是通过反向复制和CNV事件产生的(图6A和6B)。分析还发现,反转重叠了之前未知的多态性倒位的已知疾病CNV区域(图6C)。这包括对应于16p13.11微重复和微缺失综合征关键区域的倒位。作者确定了一个靠近临界区域的倒位,导致SD对的重新定向,显示出与相应病态CNV 90%以上的相互重叠,可能具有保护作用。还发现17p11.2处的倒位部分与已知的SMPLS区域重叠(图6C)。据预测,这种倒位将导致大多数直接定向SD对的重新定向,因此可能对17p11-2 CNV的形成具有潜在的保护作用。
最后,作者强调了一个5-Mbp 15q11.2-13.1倒位。倒位与众所周知的PWAS II型临界区重叠,并被认为会导致疾病的发生。该关键区域在侧翼显示出复杂的SD结构,并经历了进化反转切换(图6D)。作者开始在使用PanGenie进行基因分型后,通过分析罕见的SNP等位基因,预测1KG小组中携带此反转的其他样本。结果检测到四个额外的携带者(包括指数样本的母亲),所有这些携带者都有旁遮普血统,这表明可能存在倒位事件(图6E)。
实验验证了所有(5/5100%)预测的携带者(图6F)。由于这种倒位被认为在Angelman综合征患者的父母中更为丰富,因此这项技术可用于识别有风险的家庭。从遗传学角度来看,切换倒位更可能使标准eQTL作图和全基因组关联研究复杂化,或被遗漏,因为它们独立于不同的单倍型背景。虽然罕见的SNP可以指向潜在的携带者(图6E),但仅使用短读不能直接确定倒位状态。展望未来,大规模筛选,如在1KG细胞系中使用汇集链序列,可以提供一种有效的方法来识别。
除Y染色体外,作者通过要求确认两种独立的方法来推断倒位切换,因此可能实际上低估了倒位复发。这项研究仅限于82个不相关的人类单倍型,需要更多的基因组来进行研究。倒位两侧的许多SD区域尚未完全序列解析,这是理解倒位形成机制的关键下一步。完全解析侧翼序列将揭示在与复发和非复发事件相关的断点处是否存在特定的基因组特征,以及在某些位点上,倒位切换是否是由具有不同断点的部分重叠反转引起的。
在作者的研究中,Strand-seq对于大多数大型(>100 kbp)倒位的发现和基因分型至关重要,尤其是SDs两侧的倒位。例如,正交光学映射数据与长读和链序列数据相结合,有助于验证更复杂的单倍型结构(例如,1p36.13)。在序列水平上表征SVs仍然是一个重要目标,这在多平台方法之外可能无法实现。
教授介绍
Evan E. Eichler教授实验室的长期目标是了解人类基因组中基因复制和DNA转位的进化、病理学和机制。他的研究特别关注人类基因组的特定区域在获取、复制和传播包含基因组片段的大基因方面表现出了积极的作用。Evan E. Eichler教授假设这些“跳跃的基因组片段”是正在进行的进化过程的一部分,该过程导致人类基因组DNA的一种新形式的大规模变异,并迅速促进灵长类动物的基因进化。进一步提出,这一过程产生的大量序列相似性为异常重组提供了底物,从而导致复发性和潜在致病性的染色体结构重排。他的研究的总体目标是:
1)研究导致这种复制的分子机制;
2)评估它们在高级灵长类基因组进化中的作用;
3)评估其对正常人类染色体和与遗传不稳定疾病相关的染色体多态性的影响。
Evan E. Eichler教授结合生物信息学、大规模比较测序、系统发育学和高分辨率FISH方法来解决这些问题。致力于进一步研究基因组中这些复杂区域的特征,并开发分析方法,将其动态结构与染色体功能、基因进化和人类疾病联系起来。结合了各种学科(进化生物学、人类遗传学/基因组学和生物信息学),以了解人类基因组中新形式变异的机制和后果。各种学科的这种协同作用为解决基因组进化的生物过程提供了强有力的策略。在基因组进化研究方面,寻求这种整体方法所需的工具和条件的发展是前所未有的。
随着信息时代的到来,当前大规模的基因组测序和强大的生物信息学工具的发展,这种“复杂”和多方面的研究目标将变得越来越容易实现。Evan E. Eichler教授的总体目标是在基因组学科学应用于进化和医学的新时代做出贡献,并通过教学和指导向下一代科学家传授这种科学设计的价值。
参考文献
Porubsky D, Höps W, Ashraf H, et al. Recurrent inversion polymorphisms in humans associate with genetic instability and genomic disorders. Cell. 2022;185(11):1986-2005.e26. doi:10.1016/j.cell.2022.04.017
网友评论