Nature Cancer | 多模态数据集成改善卵巢癌风险评级
原创 苏安 图灵基因 2022-07-07 16:51 发表于江苏
收录于合集#前沿生物大数据分析
撰文:苏安
IF:23.177
推荐度:⭐⭐⭐⭐⭐
亮点:
本文的研究团队开发了一种算法模型,他们利用机器学习的方式对444例晚期浆液性卵巢癌患者的组织病理学图像和放射影像学图像进行分析,通过多种不同模式数据的集成,可以预测浆液性卵巢癌的风险评级并能改善患者的预后效果。
浆液性卵巢癌(HGSOC)是妇科恶性肿瘤最常见的死亡原因,转移性疾病的5年生存率低于30%。因为不同患者对治疗的反应不同,所以导致浆液性卵巢癌的预后效果较差。近期,在Nature Cancer杂志上发表了一篇名为“Multimodal data integration using machine learning improves risk stratification of high-grade serous ovarian cancer”的文章,研究团队利用444例浆液性卵巢癌患者的组织病理学结果和放射影像学结果,结合不同患者的临床特征,开发了一种基于机器学习来预测并改善患者预后的模型。这个模型有助于帮助妇科肿瘤医生对不同的患者选择不同的治疗方法,并能够通过对患者临床症状的监测,预测并改善患者的预后效果。
为了建立可靠的数据模型,作者的研究团队首先将444例HGSOC患者的基因组学、组织病理学和放射学数据进行整合(图1a)。随后,他们检测了来自CE-CT的卵巢和大网膜放射学特征的预后相关性,并建立了一个基于大网膜特征的模型(图1b)和一个基于组织样本的病理学模型来对患者进行风险分层(图1c)。作者将这些模型在一个测试队列上进行了验证,并使用晚期融合多模态统计框架(图1e)与临床基因组信息进行了整合(图1d)。结果表明,跨模态整合具备优势,并且多模态机器学习模型可以改善HGSOC患者的风险评级。图1.研究示意图
为了量化不同患者的特征,作者分析了444例HGSOC患者,包括296名在纪念斯隆凯特琳癌症中心接受治疗的患者和148名来自癌症基因组图谱卵巢癌数据的患者。40个测试病例从整个患者池中随机抽取,其余404名患者的数据用于模型训练。在训练队列的404例患者中,其中43例患者有H&EWSIs,245例患者在治疗前CE-CT中有附件病变,251例患者在治疗前CE-CT上有大网膜植入(图2a)。作者使用临床测序来推断HRD状态,特别是与HRD DNA损伤反应(DDR)相关的基因变异,如BRCA1和BRCA2,以及那些特异性的分离串联重复和折叠反转富集的突变亚型CDK12和CCNE1(图2b)。培训队列共包含218例HRP病例和119例HRD病例(图2c),测试队列包含12个HRD和28个HRP病例。图2.所获得的队列和数据类型的概述
为了研究CE-CT成像与预后的关系。作者使用GE医疗系统CT扫描仪,在三名具有妇科肿瘤成像专业知识的放射科医生帮助下,手动分割了所有附件肿块和具有代表性的大网膜植入物。(图3a)。随后他们从Coif小波变换图像中提取放射组特征,经过四分位数范围滤波后,每个患者的每个部位产生放射组向量。使用训练队列,经过多重假设检验校正后,9大网膜特征(图3b)和0个卵巢特征显示出具有统计学意义的HRs(图3c)。作者对9个大网膜特征的多变量显著性模型进行迭代拟合,得到一个基于高-低-低(HLL)Coif小波变换的单变量模型(图3d)。该特征的对数(HR)为1.68(校正后的P<为0.01;图3e),并且对CT扫描仪制造商和放射科医生保持不变。(图3f)。通过数据集进行log-rank检验,Kaplan-Meier分析显示,在训练集上平均生存44-57个月(图3g),在测试集上,平均生存38-47个月(图3h)。图3.高自相关的大网膜植入物与较短的OS相关
为了对病理学组织进行识别分类并建立模型,作者使用一种弱监督的方法从组织学图像中训练一个组织类型的分类器。他们在60个H&EWSIs上注释了组织类型,产生了超过140万个部分重叠的小方格,每个小方格是128×128像素(64×64µm),包含4096µm2的组织(图4a)。在ImageNet(图4b)上对病理标记为脂肪、间质、坏死和肿瘤(图4c)的组织类型进行分类,准确率为0.88(范围0.77–0.95)。结果表明,该模型正确地识别了间质注释中的小脂肪区域和肿瘤内的坏死区域,并且通过跨褶皱聚集的交叉,也验证了矩阵总体上表现出良好的性能(图4d)。图4.弱监督的深度学习可以准确地推断出H&E上的HGSOC组织类型
作者为了验证组织病理学分类模型的有效性,他们将组织分类模型应用于治疗前标本中病变的243个训练后的H&EWSIs(图1c),并且将这些推断出的组织类型图与检测到的细胞核结合起来,产生了标记的细胞核(图5a)。作者根据算法对Cox模型进行迭代拟合和修剪,得到了一个具有两个特征的多变量模型:平均肿瘤核面积和基质的长轴长度(图5b)。该模型对训练集和测试集进行了分层,一致性指数分别为0.56(95%CI 0.559–0.564)和0.54(95%CI 0.527–0.560)(图5c)。基于推断的风险评分建立的高风险组和低风险组在训练集中分离良好,中位生存期分别为34个月和49个月(图5d;P<0.01)。在测试组中,风险组倾向于不同的分离,中位生存期分别为37个月和50个月(图5e;P=0.076)。为了探究组织病理学特征的原因,作者调查了平均肿瘤核面积;下图展示了低(图5f)和高(图5g)的值,它们分别与更好和较差的预后相关。图5.可解释的组织病理学特征按OS对HGSOC患者进行分层
为了通过多种模式的数据集成预测患者的预后效果,作者实施了一种晚期融合的方法,将组织病理学、放射学、基因组学和临床数据整合到多模态模型中(图1e)。具体来说,作者使用使用各自的模式训练的Cox模型来预测每个患者的对数部分风险,然后训练一个最终的Cox模型来整合它们。在测试集中,结合两种成像模式的模型(放射学-组织病理学(RH)模型)显著优于基于HRD状态的模型、临床模型和个体成像模型,检验一致性指数为0.62(95%CI 0.604–0.638)(图6a)。采用基因组学、放射学和组织病理学(GRH)模式的模型进行了比较,检验一致性指数为0.61(95%CI 0.594–0.625)。加入HRD状态后,组织病理学亚模型评分仍具有显著性(图6b)。由GRH模型建立的高危组和低危组在训练集中通过log-rank检验有显著性差异(中位生存期分别为34个月和50个月;P=0.026;图6c)。在测试集中,GRH风险组也显示出显著差异,高风险组中位生存期为30个月,低风险组中位生存期为50个月(P=0.023;图6d)。在36个月时,低危组和高风险组分别有68%和34%存活。个体影像学方式的指数相似,但确定了不同的预后良好的患者亚组(图6e)。由测试集中的模型确定的相同的两个风险组也显示出显著差异的无进展生存期(PFS)(P=0.040;图6g)。图6.多模态整合改善了分层,并识别了临床显著的亚组
教授介绍:
Sohrab Shah
Sohrab Shah博士于2008年获得UBC计算机科学博士学位,并于2010年被任命为BC癌症机构和不列颠哥伦比亚大学的首席研究员。他于2018年4月被任命为MSK的首任计算肿瘤学服务主任,并且是Nicholls-Biondi主席的现任主席。他曾担任加拿大计算癌症基因组学研究主席,并获得了迈克尔史密斯健康研究基金会职业研究员奖和特里福克斯研究所新研究员奖。
他的研究重点是通过涉及基因组学和计算建模的综合方法来了解肿瘤如何随着时间的推移而进化。Shah博士开创了计算方法和软件,用于推断癌症基因组中的突变以及破译癌症进化的模式,这些模式已在国际上广泛传播。
参考文献:
Boehm, K.M., Aherne, E.A., Ellenson, L. et al. Multimodal data integration using machine learning improves risk stratification of high-grade serous ovarian cancer. Nat Cancer 3, 723–733 (2022).
网友评论