今天来给大家分享一篇近期的综述。Nature Reviews Cancer (IF=53.030) 于7月6日发表了一篇关于人类癌症中非编码驱动突变的综述,作者重点从体细胞点突变和小插入缺失的角度,总结了癌症基因组领域的最新发现,探讨了癌症中非编码驱动事件相对较少的可能原因,并讨论了关于检测非编码DNA中正选择信号的各种挑战。感兴趣的小伙伴跟小编一起往下看看文章的内容~
图1. 文章标题
相关背景:
多年来,科学家通过基于外显子组的分析成功地绘制了蛋白质编码区域的体细胞变化,这激发了大家对于其他非编码区的癌症驱动突变的热烈研究。然而,一直以来的核心挑战是将重要的驱动突变从非编码基因组中产生的大量非功能性的passenger突变中分离出来,而非编码基因组可比编码基因组大50多倍。
癌症中驱动基因的活性经常通过转录激活或失活而发生改变,这可以通过广泛重复的DNA拷贝数或启动子甲基化事件来影响关键致癌基因或肿瘤抑制因子,因此非编码点突变和小插入缺失也可能有多种导致肿瘤发生的途径,包括增强子序列的改变、染色质区域结构被破坏而导致的基因表达的改变、影响mRNA稳定性或蛋白翻译的5’或3’非翻译 (UTR) 区变异,以及非编码调控RNA突变(如图2)。
图2. 非编码突变有助于肿瘤发生的机制
一、检测癌症中的驱动突变(driver)的挑战:
(1)评估选择作用的挑战:
癌症中的大多数突变是无法提供克隆性生长优势的passenger突变,其出现频率约等于中性选择下的期望突变率。
人类基因组的巨大规模和癌症中的高突变负荷表明,功能性非编码元件的passenger突变会频繁出现。
与蛋白编码DNA一样,非编码DNA分析的一个关键挑战是可靠地识别正选择信号。
(2)基因组突变率的关键协变量:
识别选择信号的基本原理:在一个癌症队列中,如果一个碱基、基因或其他基因组元件的突变比(中性选择的零假设下)随机期望的出现得更频繁,那么就认为该突变在肿瘤发展过程中是被正向选择的。
癌症基因组上存在突变率的广泛异质性:(1)突变率变异性的主要来源是差异的DNA修复,特别是错配修复和核苷酸切除修复(在紫外线暴露的肿瘤中,如图3)。这些修复过程在早期复制、转录活性的常染色质区域更加活跃,因此复制时间和异染色质相关组蛋白标记是突变率的强决定性因素。(2)在单碱基水平上,突变概率明显受到三核苷酸序列上下文的影响,相关的突变过程及其序列特征的研究揭示了该现象。
图3. 基因组突变率异质性的来源
(3)局部突变现象会干扰driver的检测:
近年来出现了大量的识别非编码DNA中选择信号的方法(如图4)。其中很多方法仅依靠突变数据来估计局部(例如,基因水平或千碱基规模)突变率变异性。但是,对于基因组中特定碱基或较小位点的各种局部突变现象,仍然是混杂信号来源,特别是对于非编码突变。
在外显子组外,DNA修复的保真度可能会降低,而庞大的非编码基因组更容易出现局部突变过程,很难进行预测和建模,而且一般的driver检测工具被没有考虑该问题,因此我们需要对结果进行进一步的过滤。
紫外线照射下的皮肤癌说明了局部突变效应对突变景观的深远影响。除了少数已知的驱动突变外,黑素瘤全基因组最常发生突变的碱基主要是启动子中显著的突变热点,特别是ETS家族转录因子预测的结合位点(如图5)。其他几个局部突变效应已知会导致肿瘤中的非编码突变热点(如图5)。
图4. 识别非编码DNA中选择信号的方法
图5. 紫外线突变过程的局部易感性
二、PCAWG项目的研究结果:
2013年,随着WGS的数据在癌症基因组图谱(TCGA)和国际癌症基因组联盟(ICGC)的数据库中不断积累,就产生了整理一项研究全基因组规模的癌症基因变异的想法。来自泛癌症全基因组分析(PCAWG)联盟的初步结果涵盖了38种癌症类型(主要是实体瘤)的2658个肿瘤,涉及37个国家的1300多名科学家,最终于2020年作为论文集合发表,每一篇文章涵盖了肿瘤生物学的不同方面,包括非编码的体细胞驱动事件。
PCAWG的结果强调了TERT启动子突变在人类癌症中的高流行率(如图6)。TERT启动子突变,现在被认为是人类癌症中最频繁发生的突变事件之一,其建立了非编码调控DNA突变作为改变driver基因转录的有效手段。
但除了TERT以外,很难捕获到其他非编码基因的选择信号。编码事件主导了结果,在通过后过滤的20个显著突变的非编码元素中,大多数仍然被认为可能是假阳性,这要么是因为缺少driver的额外证据,要么是因为存在技术人工因素,其中包括编码microRNA 663a (MIR663A)基因的启动子和G029190长非编码RNA。
非编码DNA中选择信号缺乏的可能原因:PCAWG中虽然少数病例超过200例(肝癌、乳腺癌、前列腺癌和胰腺癌),但大多数肿瘤特异性队列的病例少于100例。而互作调节状态以及driver突变通常是高度组织特异性的,因此对于仅有个别癌症具有较大WGS规模的研究,是无法完全成功地揭示新的非编码癌症驱动事件。
图6. PCAWG中的蛋白编码和非编码元件的频发突变
三、最新的研究进展:
通过对PCAWG数据的重新分析,最近的两项研究显示,在几种癌症中,U1小核RNA反复发生突变。U1小核RNA是一个重复基因座,在最初的PCAWG研究中没有考虑到。虽然这种突变在总体癌症中并不常见,但在某些癌症类型中有很高的复发率,约50%的Sonic hedgehog突变的成神经管细胞瘤中有这种突变。
另外,对来自PCAWG队列的1844个肿瘤进行再分析(不包括高突变样本和先前有TFBSs突变率增加证据的癌症类型)发现,表观基因组数据定义的几个调节元件中存在显著的过度突变,其中很多都没有在最初的PCAWG论文中考虑,包括一个远端增强子的突变,该突变通过染色质的长期相互作用与注释肿瘤抑制因子CCNB1IP1的负转录调控相连,这在1.3%的患者中发生。
其他几项研究报告了增强子的突变,包括一项基于WGS分析的98例乳腺癌样本的研究,73例雌激素受体α (ESR1)阳性肿瘤中约7%在控制ESR1表达的远端和近端元件中存在体细胞单基替代。体外报告基因分析显示,大多数突变是激活的,与已知乳腺癌风险变异的共定位进一步增加了这些发现的可信度。
这些例子强调,如今通过使用改进的方法、更好的非编码基因组注释或更大的癌症特异性队列,仍然可以发现额外的非编码driver。
文章小结:
最近的非编码突变研究已经取得了一些发现,虽然像TERT这样的突破可能很少,不过这个领域还正处于初始阶段。随着计算方法的改进(包括更好的突变率模型)和对人类基因组调控线路的日益了解,更多可能的发现即将到来。随着已验证的非编码driver突变的增加,这将有助于识别特定肿瘤或癌症类型中的功能性非编码事件,最终再将这些知识转化为临床有用的分析或治疗方法
网友评论