Classifying gastric cancer using FLORA reveals clinically relevant molecular subtypes and highlights LINC01614 as a biomarker for patient prognosis
利用FLORA对胃癌进行分类,揭示了临床相关的分子亚型,并强调了LINC01614作为患者预后的生物标志物
发表期刊:oncogene
发表日期:2021 Mar 19
影响因子:7.971
DOI: 10.1038/s41388-021-01743-3
一、研究背景
胃癌(GC)的分类对于解决肿瘤间异质性、预测临床结果、为不同患者定制治疗方法至关重要。基于GC的组织学或分子特征的方法已经被提出。以肿瘤组织学为基础的Lauren分类,将GC分为弥漫型或肠道亚型。癌症基因组图谱(TCGA)提出了分子亚型系统,将GC分为Epstein-Barr病毒阳性(EBV)、微卫星不稳定(MSI)、基因组稳定(GS)、染色体不稳定(CIN)和低突变-单核苷酸变异(HM-NV)亚型。
近年来,lncRNAs(定义为长度超过200个核苷酸的非编码RNA)被广泛研究,揭示了其在肿瘤进展、转移和耐药中的多样化功能。与编码基因相比,lncRNA的表达水平普遍较低,且往往具有较强的时空特异性。
二、材料与方法
1 数据来源
1)407个TCGA样本的全转录组测序数据(375个GC和32个肿瘤相邻样本)
2)靶向DNA测序数据从ACRG研究下载
3)拷贝数数据从GSE62717下载
2 FLORA工具箱
FLORA被开发成一个用户友好的命令行工具,它包括几个独立的组件。
1)从bam文件中删除映射到编码区和其他自定义基因组位置的读数,删除映射质量低的读数
2)从预处理的数据中构建转录组
3)从组装的转录组中识别出潜在的lncRNAs
4)注释lncRNAs,与已知基因组特征无重叠的lncRNA表达位点被定义为新颖
5)构建基因共表达网络,预测lncRNA的功能
3 分析流程
1)使用FLORA工具重新分析了407个TCGA样本的全转录组测序数据
2)计算基因表达,归一化为FPKM
3)用DESeq2进行差异表达分析
4)分子亚型鉴定:R包'ConsensusClusterPlus'
5)建立了三个支持向量机(SVM)分类器来分别预测一个样本是L1、L2还是L3
6)生存分析,Cox回归分析
7)拷贝数改变分析、DNA甲基化水平分析
8)实验室测序与细胞实验
三、结果展示
01 - 利用FLORA工具鉴定GC中的致癌lncRNAs
检查映射到不同基因组区域的读数,发现平均有2.9%的读数被正确映射,并来自可能编码lncRNAs的基因间区域(图S1A,B)。作者开发了FLORA来有效地重建非编码转录组,并优先考虑癌症相关的lncRNAs(图S1C)。
FLORA从TCGA GC和正常样本中发现了28,507个潜在编码lncRNA的位点。在FLORA报道的所有lncRNA编码基因中,有13675个位点与注释的lncRNA重叠,而10356个位点在GENCODE、Ensembl或RefSeq注释中不存在(图S1D)。最后,保留了4700个平均表达水平超过0.1 FPKM的lncRNA进行下游分析,包括GENCODE中1547个新颖的和3153个已知的lncRNA。与它们配对的正常样本相比,肿瘤中来自已知和潜在lncRNAs的读数分数明显较高,在所有样本中也是如此(图S1E,F)。来自肿瘤和正常组织中编码区域的表达分歧较小(图S1G),表明lncRNAs表现出肿瘤特异性表达模式。
02 - 基于lncRNA的GC亚型的临床相关性
由于lncRNA的表达是高度动态的,对细胞状态的变化很敏感,作者研究了基于lncRNA的分类在分离GC病例中的适用性。基于1235个GC特异性lncRNA,从375个TCGA GC样本中确定了三个稳健的集群:L1(N = 171),L2(N = 104)和L3(N = 100)(图1A,图S2A-C)。359个lncRNAs在L3亚型中特异性富集,而肿瘤抑制因子GUARDIN被下调(图S2D-G)。L3亚型与最差的总生存期相关,而L1亚型的生存结果最好(图1B)。为了验证基于lncRNA的亚型的临床相关性,分析了三个独立队列的微阵列数据。L3亚型在三个独立队列中均表现出较差的总体生存率(图1C和S3A,B)。
虽然GC的阶段和诊断时的年龄也与生存期显著相关,但基于lncRNA的亚型与这两个变量无关(图S3C,D)。多变量Cox回归分析显示,L3亚型以及肿瘤期和初诊年龄是GC预后更差的预测因素(图2A)。与单独考虑单个因素相比,肿瘤阶段和基于lncRNA的亚型的组合产生了更大的预测能力(图S3E)。与TCGA数据集的分析一致,L3亚型在独立队列中被确定为独立的预后因素(图S3F-H)。
03 - lncRNA亚型与组织学之间的联系
单纯根据Lauren分类预测临床结果可能会产生较差的准确性。比较Lauren分类和基于lncRNA的亚型,作者观察到弥散型GC在L2中富集,而肠型在L1和L3中富集(图2B)。肠型GC在生存率上表现出巨大的差异,肠型-L3亚组表现出比肠型-非L3亚组更差的预后(图2C,D)。总的来说,基于lncRNA的L3亚型进一步区分了不同队列中具有不良生存结果的肠道组织学亚组。
04 - 基于lncRNA的GC亚型的基因组和表观遗传学特征
为了描述每个基于lncRNA的亚型的基因组特征,作者整合了TCGA和ACRG队列中GC的突变和CNV谱。在GC最常见的突变中,TP53突变在TCGA和ACRG队列的L3亚型中显著富集(图3A和S5A),而ARID1A、PIK3CA、KMT2B、KRAS和FBXW7突变在L1亚型中更为常见。
此外,在L1亚型中观察到更高的突变负荷,而L3亚型样本的染色体更不稳定,携带的CNV明显多于其他亚型(图3B、C和S5B-E)。与L1和L2亚型相比,L3亚型中19q12(CCNE1)、17q12(ERBB2)、7p11.2(EGFR)和20q13.2(ZNF217)被频繁扩增,而6p25.3(FOXC1)被频繁删除(图S5F-I)。在L3中频繁扩增的癌基因中,CCNE1在L3中表现出明显的高表达水平(图S5J)。
虽然利用这些分子特征进行GC分类,但TCGA研究提出的分子亚型提供的预测能力有限(图S5K,L)。L3主要由CIN肿瘤组成,L2含有较高比例的EBV和GS肿瘤,而L1则富含MSI肿瘤(图3D和S5M)。虽然两者都含有很大一部分CIN亚型GC,但L1-CIN和L3-CIN亚组在患者生存率上表现出巨大差异(图S5N)。
除基因组改变外,L3亚型还表现出明显的DNA甲基化特征。根据CpG岛甲基化表型(CIMP)的水平,将胃肠道肿瘤分为EBV-CIMP(EBV相关-CIMP)、CIMP-H(高CIMP)、CIMP-L(低CIMP)和非CIMP。非CIMP类在L3亚型中高度富集(图3E)。
05 - TP53突变和DNA去甲基化的相互作用驱动L3亚型的致癌lncRNA表达和攻击性表型
在L3富集的lncRNA中,137个表现出L3亚型的低甲基化。在L3亚型中表达升高和低甲基化的lncRNA中,H19是GC诊断的分子标志物。基于网络的lncRNA功能预测模块还在其他表征良好的lncRNA上进行了验证,FLORA成功地重建了HOTAIR与HOXA和HOXD基因簇的共表达,HOTTIP与HOXA13、HOXA11和HOXA10的共表达(图S7)。
以GC特异性lncRNA为特征,作者发现了三种基于lncRNA的GC亚型与生存结果有显著关联,并对其组织学和分子特征进行了描述(图S8A)。
06 - 鉴定GC中的致癌lncRNAs
与肿瘤相邻的正常样本相比,在GC中表达显著升高的1235个lncRNA中(图4A),作者发现了几个与更差的生存结果相关的lncRNA,如LINC01614(图4B)。LINC01614被确定为最有希望的lncRNA生物标志物(图S8B),其与GC的相关性在ACRG和新加坡队列中得到了验证(图4D,E)。大多数预后相关的lncRNAs在L3亚型中过度表达。LINC01614在L1亚型和MSI亚型中的表达明显较高(图4A和S8C-F)。
由于发现L1亚型与最佳生存结果相关(图1B,C),分析了LINC01614是否能进一步分离L1亚型,更好地预测患者生存。LINC01614的表达升高也与L1亚型的不良生存相关(图5A,B)。与TCGA队列中LINC01614高表达的L1亚型病例相比,LINC01614高表达的L1亚型病例生存结果更差(图5C-E)。虽然ACRG队列中LINC01614-高L1亚组也富含MSI和弥漫组织学,但LINC01614-高与LINC01614-低L1亚组的转移几率并无显著差异(图S9A-C)。在TCGA和ACRG队列的L1亚型中,LINC01614表达是一个独立的预后因素(图5F,G)。
LINC01614能够稳健地预测生存结果,并有可能导致GC转移。应用功能预测模块,发现有超过100个基因与LINC01614显著相关(图S9D)。此外,在LINC01614的共表达网络中,有很大一部分基因参与了ECM组织(图S9E)。
07 - LINC01614促进GC的实验验证
利用半定量PCR,验证了LINC01614在GC细胞系中高表达,而在正常细胞(GSE1)中低表达(图S10A)。LINC01614在MKN28、MKN1、GES1和MGC803细胞系中的异位表达导致细胞增殖、菌落形成和迁移加速(图6A-D和S10B-M)。此外,在MKN28、MKN1和GES1细胞中进行CRISPR-Cas9敲除LINC01614,在伤口愈合实验中观察到细胞增殖减弱、菌落形成缺陷和迁移明显减少(图6E-H)。
为了研究LINC01614的下游效应因子,生成了LINC01614 CRISPR-Cas9敲除或过度表达后GC细胞系的RNA-seq数据。LINC01614在GES1和MGC803细胞系中过度表达导致234个基因上调,包括SERPINE1、LAMC2和STC2(图S12A,B)。LINC01614敲除后,MKN1和GES1细胞系中均有227个基因下调,其中158个基因与LINC01614的共表达网络中的基因重叠(图S12C,D)。预先排序的基因集富集分析也发现了与LINC01614操作密切相关的通路(图S12E)。
四、结论
作者开发了一个新的计算工具FLORA用于lncRNA分析,并提出了一个基于lncRNA的GC亚型系统,可以稳健地分离高危病例。研究全面剖析了这些GC特异性lncRNAs的表达和临床相关性,并发现了包括LINC01614在内的多个预后lncRNAs作为潜在的生物标志物。实验验证了LINC01614的致癌功能,并在多个独立队列中验证了其作为GC预后生物标志物的潜力。
网友评论