今天跟大家分享的是三月份发表在nature genetics杂志(IF:25.455)上的一篇文章The landscape of viral associations in human cancers,文章主要讲的是对38种癌型的肿瘤样本进行全基因组和转录组的分析,研究了癌症样本与其中潜在的病毒病原体的关系。并具体的分析了几种病毒在癌症中的特征。
The landscape of viral associations in human cancers
病毒与人类癌症关联的景观研究
根据世界卫生组织统计,15.4%的癌症是由感染引起的,9.9%是病毒感染。若能发现感染病毒和癌症类型之间的关系,就可以采取一定的预防或治疗方法。比如近几年已获得上市的人乳头瘤病毒疫苗(HPV疫苗)。
病毒导致的肿瘤发生有以下几种特点:(1)在肿瘤活检中病毒DNA的存在和持续存在;(2)病毒基因在模型系统中有促生长活性;(3)肿瘤的恶性表型依赖于病毒癌基因的持续表达或宿主基因的修饰;(4)流行病学证据表明,病毒感染是癌症发生的主要危险因素。
一、摘要
这个工作主要是整合了三个独立的分析方法(CaPSID、P-DiP 和SEPATH),对38种癌型的肿瘤样本进行全基因组,一部分样本进行全转录组分析,系统地研究了潜在的病毒病原体。我们发现与肿瘤相关的已知病毒,如EB病毒(EBV)、乙型肝炎病毒(HBV)和人乳头状瘤病毒(HPV)。揭示了某些病毒在癌症中的特征。
二、方法
1. 样本
对38种癌型的5354个配对的肿瘤和正常样本进行全基因组测序,对25种癌型的1057个肿瘤进行RNA-seq测序。数据存储在Pan-Cancer Analysis of Whole Genomes (PCAWG) Consortium。
2. 识别潜在的致病 reads
使用P-DiP识别潜在的致病的reads。根据reads匹配的标准方法hg19(BWA53提供)和STAR2,识别至少一次与人类基因组不匹配的reads或是未映射到NC_007605(人类疱疹病毒4型,它包含在1000个人类参考基因组hg19的基因组中)。
3. 病毒识别
(1)识别逆转录病毒(ERVs)
使用RNA-seq数据分析ERVs的表达,根据PCAWG的设置匹配STAR 序列。
(2) SEPATH方法(使用k-mer方法)
利用提取出的具有潜在致病性的reads,获取未映射到人类基因组的读序列。使用Cutadapt移除低质量碱基,以及TruSeq indexed接头和TruSeq universal接头。使用Prinseq进行额外的过滤。然后用Metagenomic Phylogenic Analysis (MetaPhlAn)识别和量化细菌和病毒种群。使用Bowtie2将reads与唯一的标记基因数据库进行比对。然后对reads进行计数并归一化,从而对每个系统发育树评估相对丰度。
(3) P-DiP方法
是对M.A.和A.G版本的进一步开发,P-DiP方法进行预处理、装配和BLAST搜索,并将处理细节和最终结果存储在postgreSQL数据库中。从 BWA-aligned WGS BAM文件提取潜在的致病reads开始,进行WGS和RNA-seq分析。首先使用trimmomatic根据质量对reads进行修剪。然后,使用Bowtie2与人类参考基因组比对,减去宿主的读序列。使用Trinity进行read 组装。使用Bowtie2评估丰度。使用BLAST+包对重叠群进行生物学分类。根据NCBI的分类学注释定义潜在的污染物,与病原体相比,这些序列中读计数较高的片段被标记为污染物,不作进一步考虑。
(4) CaPSID
CaPSID的宏基因组分析方法首先处理一个BAM文件,该文件包含与人类参考序列(GRCh37/hg19)匹配的肿瘤(或正常)样本的reads序列。使用SGA67预处理模块对未映射到人类参考的读操作进行提取和过滤,以降低复杂性和质量,然后使用Bowtie2 aligner在单端模式下匹配到NCBI的5652 病毒参考序列(RefSeq)和由5242个细菌和1138个真菌参考序列组成的过滤序列参考数据库。使用更敏感的aligner SHRiMP2,提高检测病毒序列的敏感性和特异性,将未映射到Bowtie2的任何参照的读段重新排列到同一病毒RefSeq数据库。
完成此两步比对过程后,使用存储在CaPSID基因组数据库中的信息注释与病毒参考序列比对的reads。然后,CaPSID使用来自每个比对读取的信息,计算以下四个指标:(1)在任何给定病毒基因组中比对的reads总数,(2)在任何给定的病毒基因组中,仅跨基因区域排列的总reads (3)每个病毒基因组的总覆盖率(4)一个特定病毒基因组中任何一个基因的最大覆盖范围。
4. 病毒整合分析
使用CaPSID分析肿瘤样本,识别出的肿瘤样本中存在的候选病毒子集,用于使用VERSE算法检测病毒整合事件。
三、结果
1. 识别肿瘤关联的病毒
首先对样本测序,识别1958亿个reads用于分析,因为它们没有充分匹配到PCAWG生成的人类参考基因组基准(图1a)。通过新近开发的三种病原体发现方法CaPSID、P-DiP 和SEPATH对病毒序列进行检测和定量。估计的病毒相对丰度使用每百万reads的病毒reads数(PMER)来计算的。最后532类病毒用来在至少两个管道中进行广泛的病毒搜索。然后进行一些质量控制,发现了在多种肿瘤中感染的常见病毒(图1b)。
观察到在三种方法中识别的病毒类型之间有很强的重叠。在WGS数据集中,分别使用P-DiP、CaPSID和SEPATH识别了321、598和206个病毒-肿瘤对(图2a)。使用RNA-seq数据集识别的病毒-肿瘤对在三种方法中略有不同(P-DiP 101对,CaPSID83对,SEPATH 41对)(图2b)。虽然大多数的RNA-seq识别的病毒与WGS数据重叠,但WGS数据识别的出现在RNA-seq识别的比例较低,说明DNA测序对产生无偏倚的肿瘤相关病毒的重要性。这种差异也可以归因于病毒的生命周期,因为病毒基因表达可能在潜伏期最小。总共有86%的WGS和RNA-seq数据中检测到是双链DNA病毒和具有逆转录酶的双链DNA病毒(图1c)。这可能是由于(1)这些基因组类型的肿瘤相关病毒的频率更高 (2)WGS的测序数据集远大于RNA-seq(3)由于DNA和RNA提取不太可能包括单链DNA或RNA病毒,导致分析上的局限(4)PCAWG研究中肿瘤实体的选择性偏差。
图1.流程图及各癌型中病毒景观
2. 38种不同肿瘤类型的病毒组景观
从WGS和RNA-seq数据中识别到了389对不同的病毒-肿瘤对(图2a-d)。在356名癌症患者中检测到23个病毒属(13%)。最常见的五种病毒占肿瘤病毒感染的85%(图2c)。深入分析每个人肿瘤基因组当量的病毒基因组当量,考虑基因组大小、覆盖范围和肿瘤纯度,发现即使是已建立的肿瘤病毒,病毒基因组当量也总体较低。
在非恶性对照样本中,蔷薇病毒(Roseolovirus)和阿尔弗托克病毒(alphatorquevirus)的概率较高,它们主要来源于血细胞。不能确定玫瑰病毒与免疫细胞含量或肿瘤的发展之间的联系。此外,还不能在转录组水平上识别出玫瑰病毒和阿尔法托克病毒的活性转录基因。这与这些病毒在血液单核细胞中的潜伏状态及其通过输血传播是一致的。在识别和清除了胃部肿瘤和邻近的非恶性组织的污染后,发现了CMV(巨细胞病毒,cytomegalovirus)。
图2. WGS和RNA-seq数据中检测病毒
3. HBV发生率
乙肝病毒(HBV,hepatitis B virus)在肝癌中发现的频率最高。与组织病理学金标准HBV PCR test比较,基于WGS的一致性检测具有相同的高特异性(96.1%)和高敏感性(84.0%),说明使用WGS检测HBV是可靠的(图3)。此外,在使用WGS呈阳性但HBV PCR是阴性的7例样本中有5例显示HBAg阳性,说明WGS分析具有较高的敏感性。同时使用DISCOVER方法证实了HBV感染和CTNNB1、TP53和ARID1A突变有显著的互斥性。
图3.肝癌中HBV检测、验证和driver突变
4. 识别EBV
在许多不同的肿瘤实体和正常样本中检测到人类疱疹病毒4型(EBV,Epstein–Barr virus)(图2c)。比较肿瘤和正常样本中EBV的PMER值,发现正常样本的分布更大。对于有EBV表达的WGS和RNA-seq数据,用CIBERSORT方法评估免疫细胞score,发现病毒阳性和病毒阴性样本之间没有显著差异。上述证据说明,检测到的EBV不是由于免疫细胞的浸润,是各自的器官中存在EBV。根据肿瘤样本的表达数据,本工作确定了病毒生命周期的潜伏期和裂解期的病毒转录本(图4)。9个表达裂解EBV转录本的肿瘤中有8个来自胃癌,证实了EBV对胃癌的积极作用。
图4.胃癌样本中病毒检测
5. 识别alpha乳头瘤病毒
alpha乳头瘤病毒(Alphapapillomaviruses)主要在头颈癌、宫颈癌和膀胱癌中检测到(图2c)。在头颈癌中,HPV-阳性肿瘤表现出与已知driver突变如TP53、CDKN2A和TERT有明显的互斥性(图5c)。还发现突变特征2在头颈癌alpha乳头瘤病毒-阳性样本中显著富集(图5d),APOBEC3B表达也显著高(图5f)。
在头颈癌中,病毒阳性和病毒阴性肿瘤的表达谱明显不同(图5e)。CIBERSORT分析发现alpha乳头瘤病毒阳性的头颈癌中巨噬细胞和T细胞信号显著增加(图5g)。HPV的综合分析再次证实了许多许多与HPV感染相关的发现,说明了本文的系统方法在识别和表征肿瘤相关病毒方面的潜力。
图5.alpha乳头瘤病毒相关分析
6. 内源性逆转录病毒的激活与预后相关
人类内源性逆转录病毒(HERV)是人类DNA的整合,起源于数百万年来逆转录病毒对生殖细胞的感染,有了超过50万个单独的位点,占人类基因组总序列的2.7%。ERVs使用P-DiP、CaPSID和SEPATH三种方法识别,还使用了一种基于比对的方法来检测嵌入到人类参考基因组中的HERV序列,因为如果只关注非人类的读序列,这些序列可能会被识别方法遗漏。在本工作中,量化了类HERV长末端重复逆转录转座子的表达,Repbase方法将其分为ERVL、ERVL- malr、ERV1、ERVK和ERV等几个支系。与其他HERV科的病毒相比,ERV1表达显著于高于平均值(图6a),ERVK 是在活性基因座的最高比例(图6b)。慢性淋巴细胞白血病中发现ERV1的高表达(图6c)。Spearman秩相关显示,不能确定转录活性干细胞特性markers (OCT3/4, SOX2和KLF4)与HERV表达增加之间的联系。肾癌中高ERV1的表达与较差的生存结局有关(图6d)。
图6.ERVs表达分析
7. 病毒序列的基因组整合
病毒与宿主基因组的整合已被证明是导致癌症发生的一种因果机制。这一过程已被证实适用于宫颈癌、头颈癌和其他几种癌症中的HPVs,以及肝癌中的HBV。在61例确诊为乙肝病毒阳性的患者中,发现有36例肝癌标本合并了乙肝病毒。在单个样本的一些基因(或基因启动子)区域,观察到两个或多个整合事件(图7a)。在5个不同的肝癌样本中发现TERT整合事件。比较病毒整合样本和未整合样本的基因表达时,发现只有TERT在两个肝癌样本中过表达(图7e)。HBV病毒整合与体细胞拷贝数改变之间存在显著的相关性(图7c)。共在7例肿瘤中检测到HPV18整合事件;20个样本中有HPV16整合(图7b)。使用PCAWG单核苷酸变异calls,发现在高置信度病毒整合位点的±10,000 bp范围内突变数量显著增加。
图7.病毒与宿主基因组整合的影响
8. 新病毒种或毒株的鉴定
使用 CaPSID方法进行从头分析,得到56条不同的重叠群,并使用CSSSCL在属水平上进行分类。通过对新创重叠群与已知参考序列的同源性筛选,在28个不同的肿瘤样本中识别出29个序列相似性较低的重叠群。WGS和RNA-seq可用于从潜在的新病毒物种中识别隔离群。然而,与明确的属的病毒流行率相比,新隔离群的总数较低(图2c)。重叠群并没有针对特定的肿瘤实体进行富集,而是分布在膀胱癌、头颈癌和宫颈癌等不同类型的癌症中。
总结:
本工作对38种癌型的2658个肿瘤进行基因组和转录组的分析,发现基因组分析与仅对整个转录组数据进行分析相比,发现的病毒阳性病例要多。识别到五种占肿瘤病毒感染的主要(85%)病毒。接下来对HBV、EBV和alpha乳头瘤病毒在肿瘤中进行详细的分析。发现了内源性逆转录病毒与预后的关系。最后分析了肝癌样本中病毒与宿主基因组整合的情况,以及新病毒种的识别。
网友评论