纯生信分析套路非标准化的基因表达分类器

作者: 概普生信 | 来源:发表于2020-08-25 14:04 被阅读0次

纯生信分析套路非标准化的基因表达分类器
不到一年的时间，这个热点的纯生信已经烂大街了
纯生信分析套路 muTarget数据库|肿瘤基因表达+突变分析利
R语言之生信⑦Cox比例风险模型(单因素)
R语言之生信⑧Cox比例风险模型(多因素)
R语言之生信（9）R语言多个生存分析曲线比较
R语言之生信（10）多个探针对应一个基因的处理方法
R语言之生信（11）五分钟学会用R语言构建ceRNA网络
R语言之生信（12）一分钟学会绘制cox/meta森林图
差异表达分析基本原理与方法

PrOTYPE：一个针对临床非标准化分析的高级别浆性卵巢癌亚型的基因表达预测器

背景：

癌症分类的解剖学和组织病理学已经建立有一个多世纪了，但两者都作为疾病潜在分子特点客观评估的补充。分子生物学发展很好的助力于疾病的诊断和预测，比如最致命的妇科疾病，卵巢癌中最常见的组织类型（~70%）-- 高级别浆液性输卵管-卵巢癌（HGSOC, high grade serous tubo-ovarian carcinoma）可使用基于芯片的基因表达数据研究。

而HGSOC针对之前研究，分为以下四类(C1.MES，C2.IMM，C4.DIF和 C5.PRO)。C1/Mesenchymal (C1.MES)主要表现为间质纤维化，细胞质基质的成分高表达，其预后效果差。C2/Immunoreactive (C2.IMM) 瘤内CD3+/CD8+细胞浸润，炎症因子高表达，预后较好。C4/Differentiated (C4.DIF)瘤内CA125/MUC16高表达，临床表征与C2.IMM无区别。C5/Proliferative (C5.PRO) 瘤体通常耗尽基质和免疫组分，癌胚胎和干细胞基因高表达，预后不佳。

但由于基因表达层面的HGSOC分子亚型在临床上还没有统一的分型标准，今年6月加拿大温哥华总医院，英国哥伦比亚大学卵巢癌研究中心联合美国多所大学和研究机构尝试突破现有临床局限性和基因分子优势性，提出PrOTYPE – 最小基因集HGSOC预测器。该预测器使用NanoString平台，采用固定样本，耐受RNA降解，广泛适用于医院的病理实验室。

原理：

如流程图：PrOTYPE预测器原理示意图所示，该预测器输入数据类型分为独立的两类，也成为并行数据。首先采集数据，收集回顾性分析的20个来自Ovarian Tumor Tissue Analysis (OTTA) 联盟的FFPE肿瘤和临床数据；一个NanoString CodeSet包括513个基因(外加5个管家基因)，通过文献挖掘，监督学习等方法进行亚型聚类。建立技术重复，排除偏倚，使用bootstrap方法训练和评估了9种监督学习算法，最后基于树的集成分类算法（ADaboost）得到All array (1650基因)和随机森林（random forest）得到TCGA (438/513个基因)两个并行标记模型。根据标记模型，推导分类器所使用NanoString数据的最小基因集。将数据分为三组，训练集（8 studies），确认集（5 studies）和验证集（4 studies）。具体数据分类情况如图一。重复标记CL验证时，采用leave-one-study-out交叉验证方法和三种算法(LASSO, random forest and AdaBoost)，对于ADcboost和随机森林，采用聚集基尼系数（aggregated Gini coefficients）排序，LASSO采用非零系数比例处理每个bootstrap样本，每次加入一个基因，通过迭代，得到前100高表达基因。

（流程图：PrOTYPE预测模型数据处理流程及模型建立）

（图一：. Overview of processing of samples in from the ovarian tumor tissue analysis (OTTA) consortium. OTTA数据样本分类情况）

经过比对预测标签和CL的准确性、一致性和稳定性，确定最优势的算法，同时在确定集内考虑更小范围的基因数目，重复前面步骤，维持定义性能稳定情况下，确定最小基因集为 55个基因。

最后做预测标签与临床相关的病理特征关联分析，用单因素方差（one-way ANOVA）分析比较连续变量，卡方检验（chi-square test）分析分类变量。Kaplan-Meier生存曲线和log秩检验评估单变量生存率。在多变量模型中，使用Cox proportional hazard，并使用综合似然比（omnibus likelihood ratio test）检验计算P值。所有统计检验均为双边检验。

结果：

通过比对两个并行数据集，生成每个亚型概率和预测熵，取概率值最高的作为每个模型的标签标记，发现在两组中有很高的一致性（accuracy 79%; kappa 0.72），亚型比较发现C1.MES/C2.IMM 和 C2.IMM/C4.DIF差异明显。CL标记的样品，预测熵显著更低（p < 0.0001），如下图二显示。

（图二：All Array 和TCGA模型一致性评价指标。）

通过上述三种算法对于最小数据集筛选，发现随机森林在确认集(n=817) 在55个基因后的95 -97%准确性(图三)。

（图三：随机森林算法确定55个最小基因集）

最终确认了55个基因模型，该模型具有指定的NanoString probeset和对照、特定的计算程序，以及对原始输卵管卵巢、未治疗的HGSOC样本输入标本的要求，如下图四。

（图四：PrOTYPE预测器工作示意图）

分析所选出的55个基因集，是之前HGSOC亚型报道的通路富集基因，有细胞外基质组分（COL11A1, COL1A2, FBN1），免疫基因marker（CD3D, CD3E, CD8A），表面受体和激酶（CSF1R,CD2, AXL），细胞因子和细胞形态（CXCL9, CXCL11, CCL5）和血管生成的基因（PDGFRB, FGF1, TCF7L1）。PrOTYPE对于两个NanoString数据集，相对于CL准确性分别为95%和94%。

之后研究人员选取临床样本做HGSOC亚型确定和临床病理关联分析，从1982-2014年间被诊断的病人，发现overall survival (OS) 和 progression-free survival (PFS) (reverse Kaplan-Meier)显著不同（Log-rank p<0.0001，如下figure5）这和先前报道一致。C2.IMM和C4.DIF生存率最高，C 1.MES的存活结果最差（下图五）。根据之前的研究， CD8+ TIL水平在C2.IMM中最高：43%有高水平的TIL, 10%低水平或没有CD8+ TIL。C5.PRO有最低水平的CD8+TIL。随着CD8+ TIL的加入，OS和PFS亚型对应的风险比发生了变化，但OS亚型仍然独立预后。加上残留疾病和/或BRCA1/2加入模型，OS和PFS亚型都失去独立诊断价值。

图五

基于NanoString平台建立的PrOTYPE可很好的使用多种分析和FFPE组织样本。有分析意向（http://gaptechsxr.mikecrm.com/1vdMmqy）因此对于临床试验回顾性复查和档案样本收集分析，都有很好的复现作用。过去的几十年中，HGSOC诊断和治疗只有微小的改善，越来越多的案例表明，靶向治疗的重要性，PrOTYPE提供可供参考的高准确度的阈值，不妨是将利用基因预测作为临床病例分型诊断的一个新的开始。