Basic Information
- 英文标题: A visual-language foundation model for computational pathology
- 中文标题:一种用于计算病理学的视觉-语言基础模型
- 发表日期:19 March 2024
- 文章类型:Article
- 所属期刊:Nature Medicine
- 文章作者:Ming Y. Lu | Faisal Mahmood
- 文章链接:https://www.nature.com/articles/s41591-024-02856-4
Abstract
- 数字病理学的加速采用和深度学习的进步使得开发针对各种疾病和患者群体的不同病理学任务的强大模型成为可能。
- 然而,由于医学领域中标签稀缺,模型训练通常很困难,而且模型的使用受到其训练的特定任务和疾病的限制。
- 此外,组织病理学中的大多数模型仅利用图像数据,这与人类如何相互教学和推理组织病理学实体形成鲜明对比。
- 我们介绍了用于组织病理学的对比学习(CONCH),一种使用多种来源的组织病理学图像、生物医学文本和超过117万个图像标题对通过任务无关预训练开发的视觉语言基础模型。
- 在14个不同的基准测试套件上进行评估,CONCH可以转移到涉及组织病理学图像和/或文本的各种下游任务中,在组织学图像分类、分割、字幕和文本到图像和图像到文本检索方面实现了最先进的性能。
- CONCH代表了组织病理学中同时进行的视觉语言预训练系统的一个重大飞跃,有潜力直接促进广泛的基于机器学习的工作流程,无需或仅需最少量的额外监督微调。
Main
- 对于许多疾病的诊断,病理学家检查组织仍然是金标准。
- 最近,计算病理学的兴起,利用人工智能(AI)解决病理学中的问题,在许多任务中展示了显著的进步,包括转移检测、癌症亚型、生存预测、未知原发部位预测、图像搜索和分子改变预测等。
- 此外,当前在该领域的进步是在使用大量标记的训练样本开发针对特定任务的模型的范式下取得的,例如淋巴结转移检测和前列腺癌分级。
- 然而,整张幻灯片图像(WSIs)的数据收集和注释过程是劳动密集型的,并且不能扩展到开放集识别问题或罕见疾病,这两者在病理学实践中很常见。
- 由于有数千种可能的诊断和许多其他任务,为病理工作流的每一步训练单独的模型是不可行的。
- 此外,尽管这些任务多种多样,但它们都是对视觉数据的分析或包含其他结构化信息,例如‘组学’和其他多模态数据源。
- 然而,病理学实践和病理学发现的交流广泛使用自然语言,无论是病理学家为患者和治疗临床医生准备的报告,还是详细介绍新组织病理实体的期刊文章,还是教导居民如何实践病理学的教科书章节。
- 一般机器学习社区在使用视觉和语言信息的基础模型方面取得了巨大进步。
- 代表性的工具如CLIP30、ALIGN31和CoCa32等33,34,35,36,37,38,使用大规模图像标题对39预训练视觉语言基础模型——任务无关的预训练模型,在下游视觉和视觉语言任务中表现出强大的性能。
- 在更广泛的生物医学成像领域,视觉语言数据已被用于各种任务,包括X射线报告生成40,41、零次分类42,43,44,45和检索45,46,47,48等49,50,51,52,53。
- 然而,将视觉和语言数据集成到计算病理学中的表示学习研究数量较少,最近的研究44,54,55,56,57,58展示了使用配对图像标题数据学习有意义的视觉表示和开发可转移到多个下游任务的组织病理学基础模型的潜力,且无需任务特定的训练数据。
- 然而,这些研究44,54,56由于缺乏该领域的现成图像标题对而受到组织病理学特定预训练数据规模的限制,导致相对较差的性能和有限的实用性。
- 此外,这些模型的更广泛能力仍未被充分探索。
- 鉴于任务的多样性、获取罕见疾病或发现组合的大型数据集的困难性以及语言在病理学实践中的核心性质,有必要开发(1)高性能的视觉语言基础模型,该模型利用大规模预训练并能在各个任务中推广;以及(2)对这些模型的广泛潜在应用进行研究,以了解其效用和局限性。
- 我们介绍CONtrastive学习从字幕中获取组织病理学(CONCH),这是一个使用多种来源的组织病理学图像、生物医学文本和超过117万个图像字幕对(图1a-b和扩展数据图1)通过任务无关预训练开发的视觉语言基础模型,以解决这些未满足的需求。
- 基于CoCa32,一个最先进的视觉语言基础预训练框架,CONCH使用图像编码器、文本编码器和多模态融合解码器,并使用对比对齐目标的组合进行训练,该目标旨在将图像和文本模态在模型的表示空间中对齐,以及一个字幕目标,该目标学习预测图像的字幕(图1c)。
- 我们研究了CONCH在广泛任务中的能力,包括图像块和千兆像素WSI的分类、跨模态图像到文本和文本到图像检索、图像分割和图像字幕,使用总共14个不同的基准。
- 我们证明我们的模型在所有基准中都实现了最先进的性能,相对于其他视觉语言基础模型(图1d),包括PLIP54、BiomedCLIP44和OpenAICLIP30,并且它优于同时基准,通常具有很大的优势(图2-5)。
Fig. 1: Data curation and model schematic.
Results
Zero-shot classification of diverse tissues and diseases
多种组织和疾病的零样本分类
- 对比对齐的视觉语言预训练允许模型直接应用于下游分类任务,而无需为监督学习或微调提供进一步的标记示例。
- 这种零样本迁移能力使得一个预训练的基础模型能够直接应用于具有任意数量类别的不同下游数据集,相比之下,目前的范式需要为每个新任务训练一个新模型。
- 尽管我们预计当前的零样本分类在大多数临床用例中尚不足以达到足够的准确性,但在某些任务中,我们发现CONCH表现出色,并且它可能成为传统监督学习的强大基线,尤其是在训练标签稀缺的情况下。
- 在给定任务的情况下,我们首先使用一组预定的文本提示来表示类别或分类名称集,每个提示对应一个类别。
- 随后通过将图像与模型的共享图像-文本表示空间中最相似的文本提示匹配来对图像进行分类(图2a;详情见方法部分)。
- 实际操作中,通常可以用多种方式在文本中表达相同的概念(例如,‘乳腺浸润性小叶癌(ILC)’和‘乳腺ILC’);因此,我们在预测期间为每个类别创建了多个文本提示的集合,与使用单个文本提示相比,这通常可以提高预测性能(扩展数据图2)。
- 此外,尽管先前的研究主要集中在感兴趣区域(ROI)级别的分类任务上,我们还通过利用MI-Zero在千兆像素WSI上的零样本能力进行了探索,MI-Zero将WSI划分为较小的瓦片,然后将每个瓦片级别的得分聚合为切片级别的预测(图2b)。
Fig. 2: Zero-shot and supervised classification.
- a,使用对比对齐的图像和文本编码器进行零样本分类的示意图。为每个类别构建一个提示,并根据在共享嵌入空间中与图像最接近的提示对图像进行分类。
- b,WSI的零样本分类。每个WSI被分成多个瓦片,并按照a中的方式进行处理。瓦片的相似度得分通过top-K池化聚合形成切片级别的相似度得分,最高的相似度得分对应于切片级别的预测。
- c,d中,虚线表示任务的平均值。误差条代表95%置信区间,中心点对应于每个指标的计算值,如下所述。
- c,零样本在下游分型(TCGA BRCA,n = 150;TCGA RCC,n = 225;TCGA NSCLC,n = 150;DHMC LUAD,n = 143;CRC100k,n = 7,180;WSSS4LUAD,n = 4,693)和分级(SICAP,n = 2,122)任务中的性能。DHMC LUAD报告了Cohen’s κ,而SICAP报告了加权Cohen’s κ,所有其他任务报告了平衡准确率。其他指标在补充表1-7中报告。
- d,对每个模型的嵌入进行监督评估。ROI级别任务使用线性探测(CRC100k和SICAP),而切片级别任务使用ABMIL,报告的指标与c中相同(更详细的结果见补充表15-19)。
- e,从左到右:病理学家注释的IDC、相应的热图和高倍率下选择的瓦片。热图根据切片中每个瓦片与对应预测类别标签的文本提示之间的余弦相似度得分进行着色。我们发现注释图像与高相似度区域之间具有极好的一致性,高相似度(高sim.)区域内的瓦片展示了经典的IDC形态学,而低相似度(低sim.)区域内则为基质或其他乳腺正常成分。
- 我们总共在四个切片级别分类任务上评估了CONCH:癌症基因组图谱(TCGA)BRCA(浸润性乳腺癌亚型分类)、TCGA NSCLC(非小细胞肺癌亚型分类)、TCGA RCC(肾细胞癌亚型分类)和达特茅斯希区柯克医学中心(DHMC)LUAD(肺腺癌组织学模式分类),以及三个ROI级别任务:CRC100k(结直肠癌组织分类)、WSSS4LUAD(LUAD组织分类)和SICAP(Gleason模式分类)。
- 我们使用平衡准确率作为TCGA NSCLC、TCGA RCC、TCGA LUAD、CRC100k和WSSS4LUAD的主要评估指标,通过对每个类别的准确性得分进行等权重处理,以解决类别不平衡问题。
- 根据社区标准,我们分别使用Cohen’s κ和加权Cohen’s κ作为LUAD模式分类和Gleason模式分类的主要指标,因为这些任务被认为是主观性更强的任务,通常会导致较高的评分者间变异性。
- 我们建议读者参阅补充表1-14,以获取模型性能的更详细报告,并参考方法部分以获取评估数据集的详细描述。
- 在切片级基准测试中,CONCH在所有任务中均优于最先进的视觉语言基础模型(PLIP、BiomedCLIP和OpenAICLIP),且通常具有较大的优势(图2c)。
- 例如,在NSCLC亚型分类和RCC亚型分类中,CONCH分别达到了90.7%和90.2%的零样本准确率,并且相比表现第二好的模型PLIP,在每个任务上分别高出12.0%和9.8%,根据双侧配对置换检验(方法,“统计分析”),P < 0.01。
- 在更具挑战性的BRCA亚型分类任务中,CONCH达到了91.3%的零样本准确率,而其他模型的表现接近随机概率,准确率范围为50.7%(PLIP)至55.3%(BiomedCLIP),比CONCH低近35%(P < 0.01)。
- 最后,在LUAD模式分类任务中,CONCH的κ得分为0.200,比表现第二好的模型PLIP高0.12,尽管未达到显著性(P = 0.055)。
- 在ROI级基准测试中,我们观察到了类似的结果,CONCH在SICAP上达到了0.690的零样本加权κ(比BiomedCLIP高0.140,P < 0.01),在CRC100k上达到了79.1%的零样本准确率(比PLIP高11.7%,P < 0.01),并且在WSSS4LUAD上达到了71.9%的零样本准确率(比PLIP高9.5%,P < 0.01)。
- 这些结果表明,除了在相对容易的任务上实现更准确的预测外,CONCH在一些更具挑战性的任务上仍能做出有意义的预测,而其他模型在这些任务上可能尤其困难。
- 在使用零样本转移对WSI进行分类时,除了计算聚合的幻灯片级预测外,我们还可以创建一个热图来可视化幻灯片中每个图块与预测类标签对应的文本提示之间的余弦相似度分数。
- 具有高相似度分数的区域被模型认为与诊断(例如,浸润性导管癌(IDC))高度匹配,而具有低相似度分数的区域与诊断不匹配(图2e)。
- 在乳腺IDC幻灯片的示例中,我们发现热图中突出显示的区域与病理学家注释所划定的肿瘤区域非常相似(图2e,左和中)。
- 由于幻灯片级预测分数是给定类别的前K个图块的相似度分数的简单平均值,因此热图通过直接突出显示模型决策过程中涉及的区域来实现人类可解释性,这些区域可以以高分辨率显示给人类用户进行检查(图2e,右)。
- 其他示例在扩展数据图3-5中可视化。这些发现表明,我们的模型的零样本识别能力可以用于WSI的粗粒度组织分割,我们在结果("零样本分割")中进行了定量评估。
Few-shot classification with task-specific supervised learning
- 对比预训练的视觉语言模型在组织病理学中的零样本识别能力使得单个基础模型可以高效、快速地应用于广泛的任务,而无需经过每个新任务的训练数据收集、注释和监督模型训练的繁琐过程。
- 然而,有时仍然需要使用带标签的训练示例来专门针对特定任务最大化模型的性能,理想情况下使用尽可能少的标签。
- 在本节中,我们研究了在使用预训练的视觉语言基础模型的图像编码器骨干进行任务特定监督分类时的标签效率。
- 对于每个使用监督训练的基准,我们使用了官方训练集(如果提供)或在保留用于零样本评估的案例集后从数据集中剩余的案例。
- 对于幻灯片级任务,我们使用基于广泛使用的注意力多实例学习(ABMIL)算法59的幻灯片级标签训练了弱监督分类模型。
- 对于ROI级任务,我们在每个编码器的全局(例如,分类(<CLS>)令牌)表示之上使用了逻辑回归,这是一种常见的称为线性探测的做法。
- 除了PLIP、BiomedCLIP和OpenAICLIP编码器外,我们还引入了补充基线以进行比较:对于幻灯片级任务,鉴于其流行,我们使用了预训练的ResNet50(参考文献60)(在第三个残差块之后截断),而对于ROI级任务,我们包括了CTransPath62——一种最先进的自监督预训练的组织病理学图像编码器(详见方法)。
- 在幻灯片级任务(图2d,左)中,CONCH在BRCA亚型、RCC亚型和NSCLC亚型方面分别实现了86.7%、94.2%和93.3%的平衡准确率,分别比常用的ResNet50 ImageNet基线高出10.0%、2.6%和10.7%(P < 0.01,P = 0.223和P = 0.033)。
- 总体而言,CONCH在这三个任务中平均获得了91.4%的准确率,而PLIP和BiomedCLIP的平均准确率分别为87.3%和89.4%,但除了与PLIP的BRCA亚型比较(P = 0.04)外,未检测到其他统计学意义。
- 在ROI级任务(图2d,右)中,CONCH的性能几乎与最先进的CTransPath编码器相同(在CRC100k上,平衡准确率为93.8%,在SICAP上,二次加权κ为0.833,而在SICAP上,二次加权κ为0.835),同时在CRC100k上比PLIP、BiomedCLIP和OpenAICLIP高出4.0-5.8%,在SICAP上比PLIP、BiomedCLIP和OpenAICLIP高出0.071-0.128(所有比较的P < 0.01)。
- 这些结果表明,总体而言,CONCH提供了一个强大的图像编码器,其性能与所有测试的视觉编码器(包括一个强大的仅视觉的自监督基线)相当或更好(详见补充表15-19中的模型性能详细报告)。
- 接下来,我们研究了不同视觉语言预训练编码器在少样本设置中的标签效率,我们改变了每个类别的训练标签数量(nc),对于 nc = 1、2、4、8,直到每个类别 512 个或达到训练集中的最大可用标签数量。
- 在少样本设置中,对于每个实验,我们采样了五组不同的训练示例,并通过箱线图显示它们的单独性能,以说明在使用非常少的训练示例进行监督学习时模型性能的高方差(图 3 和扩展数据图 6)。
- 我们首先观察到 CONCH 在所有训练集大小和所有任务中实现了比其他编码器更好的性能(从五次运行的中位数准确率来看),这意味着需要更少的标签来实现相同的性能。
- 例如,在 BRCA 亚型中,使用 CONCH 编码器和每个类别 8 个训练标签的性能优于使用 PLIP、BiomedCLIP 或 OpenAICLIP 的 64 个标签每类,代表训练集大小的非平凡减少——我们在大多数测试任务中也观察到了这一趋势。
- 此外,我们注意到 CONCH 的零样本性能与少样本监督学习相比具有很强的竞争力。
- 除了相对容易的任务,如 RCC 亚型和 CRC 组织分类,CONCH 零样本在 BRCA 亚型(每类高达 64 个标签)、NSCLC 亚型(每类高达 128 个标签)和 Gleason 分级(每类高达 8 个标签用于 PLIP 和每类 64 个标签用于 BiomedCLIP)中优于基于 PLIP 和 BiomedCLIP 的监督学习。
- 这些发现表明,一个好的视觉语言基础模型的零样本能力不应该被轻视,事实上,它可以作为评估使用监督学习训练的特定任务诊断模型的性能时的一个非常好的基线。
- 另一方面,我们发现以前的视觉语言基础模型(即 PLIP 和 BiomedCLIP)的零样本能力可以通过在 CONCH 视觉编码器上使用少量标记示例的监督学习相对容易地超过。
Fig. 3: Slide-level few-shot classification experiments.
- a–c,我们研究了不同视觉语言预训练编码器在少样本场景下的标签效率,其中我们改变了每个类别的训练标签数量(nc),从nc = 1, 2, 4, 8, 16……直到达到训练集中可用标签的最大数量。
- 对于每个nc,我们采样了五个不同的训练样本集,并使用切片级标签对每个训练集训练了一个弱监督的ABMIL模型(详见方法部分,“监督和弱监督分类实验”)。
- 我们通过箱线图展示了BRCA亚型分类(a)、RCC亚型分类(b)和NSCLC亚型分类(c)的各自模型性能(每个箱线图n = 5),以研究在非常少的训练样本情况下进行监督学习时模型性能的方差。
- 箱线图中的箱体表示四分位数值,须线延伸至1.5倍四分位距内的数据点。作为参考,每个模型的零样本性能在同一图上以虚线显示。
- 就少样本监督学习而言,CONCH在不同大小的训练集和所有任务上都表现出比其他编码器更好的性能(以五次运行的中位数准确率衡量)。
- 此外,CONCH的零样本性能也表现出惊人的竞争力,在BRCA和NSCLC亚型分类任务中,即使每类样本数达到64,CONCH的零样本性能仍超过了PLIP、BiomedCLIP和OpenAICLIP的少样本性能。Sup.表示监督学习。
Application to classification of rare diseases
- 尽管先前的研究主要集中在评估视觉语言预训练模型在相对狭窄任务上的零样本和少样本性能,这些任务通常对应于一小组可能的类别(2-5个类别),但据我们所知,这些模型在涉及罕见疾病的大规模、可能是细粒度的疾病分类中的有效性尚未被研究。
- 在此,我们研究了CONCH在识别多达30种脑肿瘤类别中的效用,所有这些肿瘤根据RARECARE项目的定义被归类为罕见癌症,即年粗发病率小于每10万人6例,这一定义被美国国家癌症研究所的监测、流行病学和最终结果(SEER)项目所采用。
- 我们使用EBRAINS数据集构建了一个大规模的亚型分类基准,并评估了各种模型的零样本和监督学习的有效性。
- 在零样本分类中,CONCH 在 30 类亚型问题上实现了 37.1% 的平衡准确率(Extended Data Fig. 7 和 Supplementary Table 20),远远超过了 3.3% 的随机机会基线,以及第二好的视觉语言预训练零样本分类器 BiomedCLIP (+17.0%,P < 0.01)。
- 然而,这些模型的一般低零样本性能表明,当前一代视觉语言基础模型可能尚不具备直接执行"在野外",即开放集识别病理学中多种疾病的能力,并且在涉及多个类别和罕见实体的更具挑战性的基准测试中,它们可能会实现有限的性能。
- 接下来,我们研究了我们的视觉编码器的预训练表示质量,用于训练弱监督的ABMIL分类模型。
- 与前一节类似,我们还包括了预训练视觉编码器的其他基线,包括CTransPath、KimiaNet64和截断的ResNet50(ImageNet初始化权重)。
- 我们发现,虽然CONCH的零次学习性能由于任务的挑战性质而受到限制,但冻结的CONCH编码器的图像嵌入可以与弱监督学习结合使用,以开发出性能强大的分类模型。
- 具体来说,CONCH与ABMIL结合实现了68.2%的平衡准确率(Extended Data Fig. 7a和Supplementary Table 21),超过了视觉仅有的自监督学习(SSL)预训练的CTransPath模型(+6.8%,P < 0.01),以及所有其他视觉语言预训练模型(+10.7%,P < 0.01 for PLIP,+14.4%,P < 0.01 for BiomedCLIP和+17.8%,P < 0.01 for OpenAICLIP)。
- 这些结果表明,强大的预训练视觉语言模型可以作为标准弱监督学习的计算病理工作流的有效图像编码器,即使任务主要涉及罕见疾病。
- 最后,我们还研究了各种模型的少次学习性能,动机是罕见疾病诊断模型的训练需要高标签效率,因为数据可用性有限。
- 我们观察到CONCH与所有其他测试模型相比具有更好的标签效率,其他模型通常需要大约四倍的标签才能达到可比的性能(Extended Data Fig. 7b)。
Zero-shot cross-modal retrieval
- 通过学习视觉和语言嵌入的对齐潜在空间,我们的模型能够在零射击设置中进行跨模态检索,即根据图像查询检索相应的文本条目(图像到文本,缩写为'i2t')或反之亦然(文本到图像,缩写为't2i')。
- 这个任务自然适用于图像搜索应用,在生物医学领域,这些应用对于诸如确定研究队列或临床试验中包含的病例、帮助罕见疾病的表现或形态学以及收集病例或帮助创建教育资源等应用是有用的。
- 为了执行文本到图像检索(图像到文本方向是类似的),我们使用文本编码器将文本输入嵌入到作为查询的文本中。
- 然后,我们使用查询文本嵌入在潜在空间中检索相似的图像(图4b)。
Fig. 4: Zero-shot cross-modal retrieval.
- a,模型在跨模态检索中的性能在三个图像-文本对数据集上进行了评估(来源A,n = 797;来源B,n = 1,755;TCGA LUAD,n = 165)。通过计算查询图像与数据库中所有文本样本在嵌入空间中的相似度,检索出前K个最相似的文本。我们报告了K ∈ {1, 5, 10}时的Recall@K以及平均召回率(即对K进行平均)。我们展示了每个检索任务的文本到图像(上排)和图像到文本(下排)检索结果(列)。最右列报告了每个指标在所有任务中的平均值。CONCH在所有检索任务上都优于其他基准模型。误差条表示95%置信区间。
- b,零样本图像到文本检索的示意图(文本到图像的方向类似)。
- c,使用LUAD相关查询从TCGA LUAD中检索出的前五个图像示例,右上角显示余弦相似度得分。使用更广泛查询的其他数据集示例显示在扩展数据图7中。总体而言,我们发现模型检索到的图像与文本提示中描述的内容相符。
- 我们在三个图像-标题数据集上评估了我们的模型,分别是来源A和来源B(这两个数据集都是模型预训练时未使用的来源,涵盖了广泛的病理学概念)以及TCGA LUAD(一个更为具体的数据集,由TCGA中LUAD切片提取的瓦片组成,并由我们内部团队进行注释)。
- 根据之前的研究31,44,54,我们使用Recall@K作为跨模态检索的指标(详见方法部分,以获取检索数据集的更详细描述)。
- 平均而言,CONCH 在三个数据集上的表现远远超过了基线模型,实现了 44.0% 的文本到图像检索平均召回率,并且根据双边配对置换检验(图 4a),其优于下一个最好的模型 BiomedCLIP 17.3%(P < 0.01)。
- 对于来源 A 和来源 B,CONCH 分别实现了 68.8% 和 39.0% 的文本到图像检索平均召回率,优于第二好的模型 BiomedCLIP 31.5% 和 15.1%(两者均 P < 0.01)。
- 对于 TCGA LUAD,CONCH 实现了 24.0% 的文本到图像平均召回率,优于下一个最好的模型 BiomedCLIP 5.3%,但无统计学意义(P = 0.22)。
- 然而,CONCH 显著优于 PLIP 和 OpenAICLIP(P < 0.01)。
- 所有三个数据集的图像到文本检索均遵循与文本到图像检索相同的趋势,除了 TCGA LUAD,CONCH 和 BiomedCLIP 之间的差距略小(1.6%)。
- 我们建议读者参考补充表 22-27 以获取更详细的模型性能报告。
- 基于这些结果,CONCH 能够比基线模型执行更准确的跨模态检索。
- 除了使用配对的标题作为查询外,我们还展示了使用CONCH在TCGA LUAD数据集上检索与LUAD相关概念的简单文本提示(例如,"实体模式LUAD")的结果示例(图4c)。
- 为了提供更复杂的文本查询示例,例如"cribriform prostatic adenocarcinoma",我们使用了一个包含321,261个图块的高多样性数据集,这些图块从1,620个预训练期间保留的病例中抽取,涵盖了108个OncoTree65代码(扩展数据图8)。
- 然而,由于该数据集没有配对的文本数据,我们无法量化检索性能。
- 所呈现的示例已被病理学家确认能够紧密代表文本查询。
Zero-shot segmentation
- 虽然全幻灯片图像(WSI)可以达到千兆像素的大小,但它们通常是异质的,具有多种细胞类型、形态和组织结构,每种类型通常占幻灯片的一小部分。
- 因此,在幻灯片级别进行分割是一项困难且有用的任务,旨在根据感兴趣的特征识别WSI的不同区域,并且可以减少下游应用所需的图块数量。
- 然而,由于子幻灯片级别的标注数据收集昂贵且耗时,因此能够在零样本设置中执行幻灯片级别分割的通用模型是有价值的。
- 在这项工作中,我们探索了在没有标记示例的情况下在WSI上执行粗粒度组织分割的可能性,而是直接使用我们模型展示的零样本检索和分类能力。
- 给定一张全扫描图像(WSI),我们将组织区域划分为较小的图像块,并将给定的分割任务视为使用零次分类对每个块进行分类,并将预测的类别标签分配给块中的所有像素,对所有块执行此操作(图5a)。
- 为了最小化相邻块边界处像素的预测值的急剧变化,我们以75%的重叠度对WSI进行块划分,并在重叠区域平均预测分数,以实现预测分割图中更平滑的外观。
- 我们在SICAP上评估了我们的模型,用于前列腺肿瘤与正常组织的分割,以及在DigestPath上用于CRC样本中恶性与良性组织的分割。
- 我们报告了广泛使用的Dice评分,以及每个任务的精度和召回率,与真实像素级注释相比,评分在每个数据集的所有图像上进行了宏观平均(更多详细信息请参见方法)。
- 我们建议读者参考补充表28和29以获取模型性能的更多详细结果。
- CONCH 在两个任务中都优于其他模型(图 5b,c)。
- 在 SICAP 中,CONCH 获得了平均 Dice 分数 0.601(0.549,P = 0.08 对于 PLIP 和 0.484,P < 0.01 对于 BiomedCLIP),平均召回率 0.751(0.644,P < 0.01 对于 PLIP 和 0.557,P < 0.01 对于 BiomedCLIP)和平均精度 0.672(0.605,P = 0.024 对于 PLIP 和 0.536,P < 0.01 对于 BiomedCLIP)。
- 在 DigestPath 中,CONCH 获得了平均 Dice 分数 0.615(0.426,P < 0.01 对于 PLIP 和 0.446,P < 0.01 对于 BiomedCLIP),平均召回率 0.709(0.541,P < 0.01 对于 PLIP 和 0.601,P < 0.01 对于 BiomedCLIP)和平均精度 0.663(0.526,P = 0.024 对于 PLIP 和 0.581,P < 0.01 对于 BiomedCLIP)。
- 此外,我们发现,尽管该方法是粗粒度和零射击的,但模型能够在某些情况下产生相当准确的像素级分割掩码,如图 5d,e 所示。
Fig. 5: Zero-shot segmentation.
- a,示意图展示了在WSIs(或大型组织切片)上的零样本分割。为了执行分割,我们将每个WSI划分为多个瓦片,并使用零样本分类来预测每个瓦片的标签。然后将瓦片级预测拼接在一起,形成预测的分割掩码。
- b,c,CONCH和基准模型在SICAP(n = 31)(b)和DigestPath(n = 250)(c)数据集上的零样本分割性能。报告了宏平均Dice分数、精度和召回率。误差条表示95%置信区间。
- d,e,CONCH在WSIs上的分割预测示例,分别来自SICAP (d)和DigestPath (e)。左侧面板显示了真实标签,右侧面板显示了预测的分割掩码,并放大了示例区域。红色表示肿瘤组织,蓝色表示正常组织。
- 总体而言,在这些示例中,CONCH表现出对肿瘤区域的极高敏感性,但特异性略低,尽管CONCH将部分非肿瘤区域分割为肿瘤区域,但这些区域通常邻近癌性腺体或包含与癌症相关的基质,无论是在SICAP还是DigestPath数据集中。
Discussion
- 计算病理学中大多数之前的工具试图从图像数据和/或结构化的患者数据(如基因组学)中提取有意义的模式和判别信号,但忽略了病理学的文本方面。
- 然而,这些方法遗漏了图像描述中大量的信息,这些信息允许病理学培训者从少数示例图像推广到现实世界中通常更为多样化的图像。
- 虽然最近的几项研究尝试利用社交媒体或生物医学研究文章中的图像和标题数据来构建适用于组织病理学领域的视觉语言基础模型,但我们发现,在多项任务中,它们的零样本和监督分类性能仍然有限,限制了它们作为组织病理学通用识别或检索系统的实际价值。
- 此外,除了在小型兴趣区域(ROI)上工作之外,这些模型在更复杂的环境中(例如,罕见疾病的分类或异质性千兆像素全幻灯片图像的肿瘤分割)中的表现仍然未被充分探索。
- 在这项研究中,我们展示了通过使用目前最大规模的病理学特定配对图像文本数据集(超过117万个示例),用于任务不可知的预训练,我们可以构建一个高性能的视觉语言基础模型,该模型可以在各种临床相关的下游任务中展示其实用性,例如分类、检索和组织分割。
- 我们的模型具备强大的零样本识别能力,可以在很多特定分类任务中减轻注释训练样本的负担,我们展示了其零样本性能通常与传统的监督学习基线相匹配甚至在少样本设置下超越了它们。
- 此外,我们的模型大大改进了零样本图像到文本和文本到图像检索能力,这将可能使受训者、医生和研究人员能够更准确、更灵活地根据图像或自然语言查询检索相关的病例或教育示例,一旦它可以被高效地集成到医疗保健系统或数据库中。
- 配备了多模态解码器,我们的视觉语言基础模型还提供了在下游任务中进行语言生成(例如图像字幕;参见方法‘使用微调的字幕’获取详细信息和扩展数据图9和补充表30获取探索性结果)和/或基于视觉和文本输入的多模态推理的灵活性。
- 然而,除了在特定任务中取得有希望的结果外,我们还发现并指出当前的视觉语言预训练模型,包括CONCH,在涉及大量类别和罕见疾病的具有挑战性的零样本问题上仍然表现不佳(相对于其监督学习对应物而言)。
- 这些观察结果表明,我们在构建一个能够真正实现通用零样本识别或检索的基础模型之前可能仍然有很长的路要走。
- 我们还进行了消融实验,以研究数据过滤、不同的预训练算法和单模态预训练对我们模型性能的影响。
- 最值得注意的是,我们发现进行单模态预训练(尤其是视觉编码器SSL预训练)可以在大多数任务中提高模型在零样本分类和检索中的性能(更多详细信息请参见扩展数据图10)。
- 另一个相对未被充分探索的方面是视觉语言预训练基础模型与传统端到端监督学习的兼容性,后者旨在针对特定任务。对于一些被广泛研究的单一疾病模型任务,例如前列腺腺癌Gleason分级,世界各地的各个团体已经付出了巨大的努力来建立大型且多样化的数据集,这些数据集具有详细的ROI或像素级注释,适合于端到端监督机器学习。
- 一个自然的问题是,鉴于大量的注释数据,预训练一个基础模型在来自不同组织类型和疾病的图像和标题上是否仍然会为这些特定任务带来切实的好处?
- 我们试图通过汇集来自多个公开来源的超过200,000个标记的ROI,为前列腺癌Gleason分级任务提供一些洞察,然后执行我们视觉编码器的端到端微调,以及一系列其他预训练的标准卷积神经网络(CNN)-based和视觉转换器(ViT)-based模型,包括特定领域的编码器,如KimiaNet64和CTransPath62。
- 在我们的实验中,我们发现,即使有成千上万个标记的ROI与从ImageNet权重或SSL预训练的迁移学习相结合,一个微调的CONCH模型仍然可以提供相当大的改进,即使与一个更大的ViT-Large模型相比(补充表31)。
- 虽然最近的一项调查发现,当前的视觉语言预训练基础模型在使用特定算法的WSI-to-WSI匹配特定场景中可能表现得比较小的编码器更差,但我们的实验结果表明,无论是在罕见疾病的少样本分类还是弱监督分类,以及端到端的微调中,CONCH都可以作为组织病理学图像的最先进的视觉编码器,并提供一个共享的图像文本潜在空间,解锁额外的多模态能力。
- 然而,这些发现强调了持续研究和评估的重要性,以更好地理解基础模型在计算病理学中的优势和局限性。
- 我们的研究的一个关键限制是数据预训练的规模,与一般机器学习社区中用于开发大规模视觉语言基础模型的亿级数据集相比仍然相形见绌;因此,通过增加组织病理学图像标题数据集的数量和质量,我们可能会看到零拍识别能力、表示质量和鲁棒性的进一步潜在改进。
- 然而,鉴于预训练中使用的数据规模越来越大,预训练数据和下游测试数据之间无意中重叠的可能性也越来越高,这也是生物医学领域以前视觉语言预训练方法所共有的限制。
- 检测和删除重复项和近似重复项通常依赖于启发式方法和手动评估,这在生物医学领域尚未得到充分探索,成为未来工作的开放性研究问题。
- 在这项研究中,我们通过确保没有公开可用的测试数据集直接源自任何训练源,并且只在源级别保留数据,从而最小化了数据重叠的可能性。
- 该研究的另一个局限性是,我们没有研究零拍分类(对于图像ROI和WSI)在不同数据队列中的鲁棒性,这些队列可能具有不同的染色变异、组织制备协议和扫描仪特定的成像配置文件,与使用传统的监督学习或参数高效的微调技术相比。
- 此外,虽然我们表明简单地组合少量模板和病理学家编写的类名已经可以很好地适用于多个任务,但我们没有尝试根据模型的性能显式地设计提示(例如,使用验证集)。
- 我们注意到,在小型验证集(如果可用)上显式搜索"好"提示可能在实践中更有效,同时仍然保留不需要微调模型的好处,尽管它将不再被严格地认为是零拍转移。
- 此外,作为WSI的零拍分类算法,MI-Zero仅适用于每个类的定义形态模式相互排斥的任务,它可能不适用于具有特定假设或指南的任务。
- 这包括诸如Gleason评分之类的任务,其中可能需要考虑主要和次要模式以通知分类,或者肿瘤与正常分类,其中幻灯片可能在识别单个肿瘤区域后被适当标记为"阳性"。
- 我们注意到,对于这些类型的任务,MI-Zero的池化函数可以调整以更好地适应任务的性质,我们将其实现和评估留给未来的研究。
- 最后,虽然当前的视觉语言基础模型的组织病理学景观主要关注图像级任务,但这些模型在区域级别(即细胞甚至亚细胞级别)识别细粒度视觉概念的能力尚未得到研究,这意味着其他重要任务,如有丝分裂检测、细粒度组织分割或细胞计数,目前仍然超出了它们的下游能力范围。
Methods
Dataset curation
数据集管理
- 本研究使用的大部分数据来自公开可用的研究文章。对于内部数据,马萨诸塞州总医院布莱根妇女医院的机构审查委员会批准了对内部病理图像、相应报告和电子记录的回顾性分析。所有内部数字数据,包括WSI、病理报告和电子病历,在计算分析和模型开发之前都进行了去标识化处理。患者未直接参与或被招募参与该研究。对回顾性分析档案病理切片的知情同意被豁免。
- 我们使用来自PubMed的公开文章来整理迄今为止最大的组织病理学图像-标题对数据集。我们使用深度学习迭代地自动化数据清理过程。为了整理数据,我们将数据来源分为两类:EDU(由教育笔记中提取的数据组成)和PMC OA(由PubMed Central开放获取数据集下载的数据组成)。
- 数据整理过程中面临两个主要挑战:过滤组织病理学数据和处理图像面板。第一个挑战是下载的原始数据包含了组织病理学和非组织病理学的示例。第二个挑战是大部分数据是以图像面板的形式存在的,其中图像由多个子图像组成,这些子图像排列在一个面板中,标题的部分内容涉及所有或部分子图像。鉴于这些挑战,手动清理数据是不可行的。
- 我们分三个步骤清理数据:(1)检测组织病理学图像(作为单个图像或子图像);(2)将指向图像面板的标题拆分为子标题;(3)在每个图像面板内将子图像与子标题对齐。
- 为了检测组织病理学图像,我们使用了一个对象检测模型(YOLOv5)生成边界框,以提取检测到的图像。为了避免手动标记真实边界框的繁重任务,我们通过随机选择单面板图像并将它们排列在一个图像面板中来生成合成数据。我们通过在PMC OA的一个小子集(<0.5%)上验证模型,并将错误标记的样本添加到训练集中,迭代优化检测模型。
- 对于标题拆分,我们收集了原始标题和拆分标题的数据集(在清理EDU数据集时)以微调一个在PubMed和其他医学文本上预训练的生成式预训练变压器(GPT)风格模型。我们将标题拆分问题设定为因果语言建模,通过微调语言模型使其将原始完整标题作为输入,并预测以关键字“next caption”分隔的子标题。我们使用微调后的模型进行标题拆分。
- 为了将检测到的组织病理学图像与拆分后的标题对齐,我们首先在清理后的EDU数据集上训练了一个CLIP模型,并结合了不需要拆分和对齐的PMC OA单幅图像。使用训练好的模型,给定一个图像面板中的m个检测到的图像和n个拆分后的标题,我们在对齐的潜在空间中计算图像嵌入{u0, u1, …, um}和文本嵌入{v0, v1, …, vn}。对于每个图像嵌入ui,我们计算其与每个文本嵌入vj的余弦相似度得分。我们检索具有最高余弦相似度得分的文本,并将{ui, vj}视为我们清理后的数据集中的图像-标题对。
- 通过将上述三个步骤应用于PMC OA,我们创建了PMC-Path,这是一个由PubMed图像派生的病理学特定图像-标题数据集。然后我们将其与EDU结合,形成了我们完整的、未过滤的预训练数据集,共包含1,786,362个图像-标题对。
- 然而,PMC-Path中也包含了相当数量的动物组织病理学对以及非苏木精和伊红(H&E)染色对(如免疫组化、马松三色、刚果红等)。由于我们的下游评估仅涉及人类组织病理学和H&E任务,我们希望评估动物和特殊染色数据对性能的影响。我们首先解析标题以排除非人类动物样本,形成了一个包含1,170,647个人类对的数据集。此外,我们训练了一个分类器来识别H&E染色,以进一步过滤仅有人类的H&E染色数据集,最终创建了一个包含457,372对的数据集。我们发现,在人类数据集上预训练的CONCH在一般下游任务中表现最佳(扩展数据图10a)。
Visual-language pretraining
视觉语言预训练
- 在视觉-语言预训练中,我们使用了图像-文本对比损失和标题生成损失的等权重组合,遵循了CoCa32,这是一个在通用领域图像-标题对上预训练的最先进的视觉-语言基础模型。模型由图像编码器f( ⋅ ; θ)、文本编码器g( ⋅ ; ϕ)和多模态文本解码器h( ⋅ ; ψ)组成。
- 图像编码器包括骨干网络和两个注意力池化模块,分别由θbackbone、θcontrast和θcaption参数化。骨干网络是一个ViT73,遵循标准的ViT-base架构,具有12个transformer层、12个注意力头、768的嵌入维度和3,072的隐藏维度。token大小为16 × 16,并为每个token添加了学习的绝对位置嵌入。骨干网络将原始的红-绿-蓝(RGB)像素值形式的图像转换为在更丰富语义表示空间中学习到的密集特征图。
- 每个注意力池化器负责使用多头注意力和n个学习查询,从ViT骨干网络的最后一层表示中计算出固定数量(记为n)的图像tokens。为了通过对比学习实现跨模态检索,第一个注意力池化器fcontrast( ⋅ ; θcontrast)使用单一查询(ncontrast = 1)计算出一个单一的图像token,旨在捕获图像的全局表示。第二个注意力池化器fcaption( ⋅ ; θcaption)使用ncaption = 256个查询生成一组256个图像tokens,旨在捕获图像的更多局部和细粒度的细节,这通常是生成标题所需要的。
- 文本编码器和多模态解码器均为GPT风格的模型,使用因果注意力掩码进行从左到右的自回归语言建模。与图像编码器类似,文本编码器和多模态解码器由12个transformer层组成,嵌入维度为768,隐藏维度为3,072。文本编码器包括一个嵌入表,用于将离散词token映射到连续嵌入,以及一组学习的绝对位置嵌入。
- 此外,文本编码器在每个标记化标题后附加了一个学习的<CLS> token,该token在transformer注意力期间可以访问完整的上下文,以提取给定标题的全局表示。多模态解码器在每个多头自注意力层之后插入一个交叉注意力层,以整合图像token的信息,并包括一个最终的语言建模头,用于预测支持的词汇表中的下一个token的分布。
- 在视觉-语言预训练期间,一个小批量包含M个图像-标题对,其中wi = (<BOS>, wi,1, …, wi,T, <EOS>)是表示第i个标题的T个词token序列。对于给定的对(xi, wi),我们将(ui, vi)定义为fcontrast( ⋅ ; θcontrast)的输出以及g( ⋅ ; ϕ)在<CLS> token位置处的输出,经过ℓ2正则化后。
- 完整的目标函数表示为:
- 第一项和第二项分别表示图像到文本和文本到图像的对比损失,旨在最大化配对图像和文本嵌入之间的余弦相似度分数,相对于小批量中的其余负配对。最后一项旨在最大化多模态自回归语言模型(由图像编码器、文本编码器和多模态解码器共同参数化)在观察到的每个token下的对数似然,条件为标题中的前一个token以及相应的图像。
- 每个视觉-语言预训练实验训练了40个周期,分布在八个NVIDIA A100 80-GB图形处理单元(GPU)上,每个GPU的本地批量大小为48,使用梯度累积实现1,536的有效全局批量大小。我们将图像大小设置为448 × 448像素,较大的图像首先沿较短边调整大小并进行中心裁剪,较小的图像根据需要进行零填充。所有优化超参数详见补充表32。
Pretraining unimodal encoders
预训练单模态编码器
- 之前的工作56表明,在使用成对的图像-字幕数据进行联合视觉-语言预训练之前,使用未配对的数据对单模块进行自监督预训练,可以显著提高下游零样本转移性能。
- 我们使用iBOT74对图像编码器进行预训练,这是一种最先进的、自监督的预训练算法,适用于未标记的图像数据。
- 我们从21,442张WSI的组织区域中以×20倍的放大率抽取并提取了1600万张256×256大小的图像块,这些WSI涵盖了OncoTree分类系统65中的350种癌症亚型。
- 图像预训练的详细超参数在补充表33中提供。
- 为了预训练语言模型,我们建立了一个多样化的病理相关文本语料库,范围从病理教育文本到马萨诸塞州总医院的超过55万份手术病理报告的最终诊断部分,以及超过40万份精选的病理相关PubMed摘要。
- 我们使用正则表达式对内部诊断报告进行了匿名处理,特别是将患者和医生姓名、样本标识符、医疗记录号码和日期替换为词汇表中的相应特殊标记。
- 我们预训练了一个24层的GPT风格的自回归模型,使用下一个单词预测损失。
- 具体来说,给定一个单词令牌序列w = (<BOS>, w1, …, wT, <EOS> ),我们在参数化为ξ的自回归生成模型下最大化每个令牌的对数似然:
- 仅文本预训练的详细超参数在补充表34中提供。在预训练后,基于Transformer的语言模型的前12层和嵌入表被用来初始化单模态文本编码器,而最后12层和语言建模分类器头被用来初始化多模态解码器中的相应参数。
- 我们通过比较上述单模态领域特定预训练方案与使用ImageNet预训练的图像编码器的CONCH以及语言模型随机初始化的CONCH在下游任务中的性能来评估单模态预训练的好处(扩展数据图10)。
- 我们发现,使用领域特定预训练的CONCH在零次学习迁移和检索任务中都优于使用ImageNet预训练的CONCH。
- 使用预训练语言模型的CONCH在分类和分级任务中与使用随机初始化语言模型的CONCH表现相似,但在检索任务中优于后者。
Zero-shot transfer on ROIs and tiles
对兴趣区域和图块进行零次迁移
- 对于零样本迁移,我们使用了CLIP中描述的方法。每个类别都与一个包含类别名称(例如,“腺癌”)和模板(例如,“this is {}.”)的文本提示相关联(参见补充表35,了解所有任务中使用的模板)。对于与类别j ∈ {1, 2, …, C}相关的提示,我们使用在配对数据集上训练的文本编码器计算ℓ2归一化的嵌入vj,以形成线性分类器的权重。
- 由于模型性能可能因提示的选择而显著变化,我们通过从病理学家整理的一组提示中采样子集并报告中位数来测量性能差异。或者,我们也可以通过对一个类别内的所有提示取平均嵌入,作为该类别的文本嵌入,来进行集成(参见扩展数据图2,了解有无集成的比较)。
- 类似地,对于每个图像,我们计算ℓ2归一化的嵌入ui。然后,我们计算图像与每个文本嵌入之间的余弦相似度分数,预测类别是具有最高相似度分数的类别:
- 由于某些评估集是不平衡的,我们报告了平衡准确率(即对每个类别的准确率进行宏平均)和按每个类别的支持数加权的平均F1分数。对于SICAP,我们还报告了二次Cohen’s κ分数,这通常用于前列腺Gleason分级,其中相邻分级类别之间的错误惩罚较小。
- 类似地,对于跨模态检索,我们使用与上述零样本分类相同的方法来检索在对齐的潜在空间中最接近特定文本查询的前K个图像(文本到图像检索)。图像到文本检索的操作方式类似。为了评估检索,我们遵循ALIGN的方法,使用Recall@K,即在测试集中正确结果出现在前K个检索样本中的百分比。我们选择了K ∈ {1, 5, 10},并通过对三个Recall@K值进行平均来报告平均召回率。
- 除非另有说明,我们通过图像缩放和中心裁剪将CONCH的最大图像尺寸限制为448 × 448,类似于其预训练配置。对于所有不是我们模型的其他模型,我们在下游评估中使用了它们提供的处理函数和默认配置进行图像和文本处理。
Extending zero-shot transfer to WSIs
将零样本迁移扩展到WSIs
- 为了将零样本转移扩展到千兆像素图像,我们遵循了MI-Zero56引入的方法。具体来说,对于C类分类,WSI首先被分成N个图块,并使用图像编码器独立计算ℓ2归一化嵌入。
- 对于每个图块嵌入,我们按照上面描述的图块方法计算与每个文本嵌入的相似度分数,从而为每个图块获得一组C个相似度分数。
- 为了聚合图块之间的相似度分数,我们使用了top-K池化运算符,通过对每个类别的最高K个相似度分数取平均值来获得幻灯片级别的相似度分数。
- 因此,具有最高幻灯片级别分数的类别是预测类别。我们选择K∈{1, 5, 10, 50, 100},并报告分类任务中具有最高平衡准确率的K值和DHMC LUAD的Cohen’s κ值。
- 与图块分类类似,我们报告分类任务的幻灯片级别平衡准确率和加权F1分数。对于DHMC LUAD,由于LUAD亚型任务可能是主观的,我们报告Cohen’s κ分数。
- 我们使用与分类类似的方法执行零次射击幻灯片级别分割。我们将WSI划分为图块,并独立计算每个图块的相似性得分。
- 然而,我们没有将图块的得分聚合成单个幻灯片级别的预测,而是将图块级别的得分映射到WSI中的相应空间位置,在重叠区域取平均值。
- 最后,对于每个像素,我们将具有最高得分的类别分配为预测,从而生成像素级别的分割掩码。
- 我们计算了Dice得分76来量化预测分割掩码相对于真实情况的质量。
- 有关WSI预处理的详细信息(用于分类和分割任务)在"方法"中的"WSI处理"部分进行了描述。
Supervised and weakly supervised classification experiments
监督和弱监督分类实验
- 我们在所有有标签的训练样本可用的任务上进行了监督分类实验,包括用于BRCA亚型分类的TCGA BRCA、用于NSCLC亚型分类的TCGA NSCLC、用于RCC亚型分类的TCGA RCC、用于CRC组织分类的CRC100k和用于Gleason分级的SICAP。
- 对于每个数据集,如果有官方的训练和测试划分,我们使用了官方的划分;如果没有,我们在保留用于零样本分类评估的样本后,使用剩余的标签样本进行训练(详见方法部分,“下游评估数据集”)。
- 对于切片级实验,我们考虑了四种视觉-语言预训练图像编码器,即CONCH、PLIP、BiomedCLIP和OpenAICLIP。除了PLIP使用32的patch size外,其余三个编码器都遵循了16的patch size的ViT-base架构。
- 对于切片级任务,我们还考虑了一个ResNet50编码器,该编码器在第三个残差块后截断,权重从ImageNet上的监督分类初始化,因为它在WSI的弱监督分类中是一个常见的选择。
- 对于ROI级任务,我们添加了CTransPath作为基线,这是一个使用自监督学习在大规模未标记的组织病理学图像数据集上训练的最先进的通用视觉编码器。我们没有将CTransPath用于TCGA切片级任务,因为TCGA切片(包括那些用于我们的测试集的切片)构成了CTransPath训练数据的大部分,这可能会导致信息泄露,从而不公平地提高CTransPath在TCGA基准上的性能。
- 在所有实验中,我们将图像输入大小标准化为224 × 224。我们使用每个图像编码器从每个图像中提取低维特征嵌入(在WSI的情况下是瓦片)。对于CONCH,我们使用了与图像-文本对齐对应的注意力池化器的输出,嵌入维度为512。对于基于CLIP的模型(包括PLIP、BiomedCLIP和OpenAICLIP),我们使用了<CLS>标记,该标记也用于预训练期间的图像-文本对齐,其维度同样为512。对于ResNet50,我们在第三个残差块后使用全局平均池化来获得1024维的嵌入。对于CTransPath,我们也使用了<CLS>标记表示,其嵌入维度为768。
- 对于WSI分类,我们使用了与MI-Zero中零样本分类相同的预处理设置。我们使用广泛使用的ABMIL进行WSI的弱监督分类,使用切片级标签。ABMIL模型架构包括一个全连接层和一个修正线性单元(ReLU)非线性映射,首先将输入映射到512维的嵌入维度,然后是一个两层的、门控变体的注意力网络(如原始论文中描述),隐藏维度为384。最后,一个全连接的分类器头将注意力池化的切片级表示映射到logits,经过softmax归一化后被解释为类别概率。我们在网络的每个中间层之后使用了P = 0.25的dropout进行正则化。我们使用AdamW优化器、余弦学习率调度器和1 × 10^−4的学习率在训练集上训练每个模型20个周期。我们使用加权数据采样器,增加了来自少数类切片的采样概率,使得模型在每个周期中平均看到来自每个类别的相同数量的切片。完整的超参数集总结在补充表36中。
- 对于ROI级分类,我们通过在每个编码器的预训练图像嵌入上训练一个逻辑回归模型进行线性探测。我们遵循大规模自监督表示学习社区推荐的做法,将ℓ2正则化系数λ设置为(\frac{1}{M \times C}),其中M是嵌入维度,C是类别数量。我们使用有限内存的Broyden–Fletcher–Goldfarb–Shanno (L-BFGS)求解器,并将最大迭代次数设置为800。
- 对于少样本分类,我们保持测试集不变,训练时每个类别的标记样本数量(即“shot”)从nc = 1, 2, 4, 8, 16, 32变化到nc = 512或给定类别的最大标记样本数量。其他超参数和训练设置与上述相同。
End-to-end fine-tuning for classification experiments
端到端微调用于分类实验
- 我们在一个四类Gleason分级基准上使用标准的端到端微调评估了CONCH在图像ROI分类中的效用。该基准共有228,482个图像ROI(训练集:189,484个;验证集:9,959个;测试集:29,039个),分别标记为NC、G3、G4或G5(详情见方法部分,“下游评估数据集”)。
- 我们将CONCH的性能与五个其他模型进行了比较,这些模型涵盖了多种模型架构、预训练策略和规模,包括ViT-B/16(与CONCH视觉编码器骨干架构相同的ViT)、ViT-L/16(参数量约为ViT-B的3.5倍的更大ViT)、ResNet50(流行的、广泛使用的标准CNN架构)、CTransPath(基于Swin transformer架构的组织病理学特定图像编码器,使用大规模视觉自监督学习预训练,在许多计算病理学任务中取得了最先进的性能)和KimiaNet64(基于DenseNet121架构的轻量级CNN,使用监督学习在组织病理学图像分类任务上进行预训练)。
- 对于ViT-B/16、ViT-L/16和ResNet50,我们使用在ImageNet上预训练的权重初始化模型;对于CTransPath和KimiaNet,我们使用了各自作者提供的预训练权重。
- 我们还通过进一步从完整训练集中按切片级别下采样10%和1%的标签(即来自4,622个切片的189,484个ROI分别对应来自462个切片的19,304个ROI和来自46个切片的1,864个ROI)来调查每个模型的标签效率。结果总结在补充表31中。
- 每次实验我们使用了八个80-GB的NVIDIA A100 GPU,ViT-L/16每个GPU的批量大小为32(由于GPU内存限制),所有其他模型的批量大小为128。所有图像在训练和推理时均调整为448 × 448像素。
- 我们在250步内对学习率进行了预热,并使用AdamW优化器(β = (0.9, 0.999))和fp16自动混合精度训练。对于每个模型,我们在验证集上对学习率{1 × 10^−6, 1 × 10^−5, 1 × 10^−4, 1 × 10^−3, 1 × 10^−2}进行选择。我们最多训练20个周期,并监控验证集的性能以进行提前停止,耐心值为五个周期,使用验证集上表现最好的模型进行测试集评估。
- 对于10%和1%标签的训练,我们将最大周期数分别增加到40和80,以适应每个周期较少的训练迭代次数,并相应地将提前停止的耐心值增加到10和20个周期。
- 在训练期间,我们使用了标准的数据增强技术,包括随机水平和垂直翻转、离散角度旋转(θrot ∈ {0, 90, 180, 270})和颜色抖动(亮度,16/255;对比度,0.125;饱和度,0.075;色调,0.01)。
Captioning with fine-tuning
使用微调的字幕
- 图像标题生成是广泛探索的一个通用视觉-语言任务。在图像的顶级诊断之外,图像标题生成还可以提供形态学和上下文细节以及额外的可解释性,提供比离散标签更丰富的信息集。
- 尽管之前的视觉-语言预训练研究展示了分类和检索的应用,但它们不具备生成能力。通过在CoCa框架中添加生成损失以及对齐和文本编码模块,我们的模型增强了基于图像输入生成文本的能力。
- 我们在来自预留来源A的图像-标题对上探索了CONCH的标题生成能力,其中每个标题都由认证的病理学家手动审查和精简,以仅保留可以从图像推断出的信息,包括顶级诊断和详细的形态学描述。
- 鉴于我们的预训练数据远未达到高质量零样本标题生成的规模,我们在数据集上进行了微调。我们将数据集划分为训练、验证和测试集,并微调了CONCH和基线模型。由于PLIP和BiomedCLIP不易适用于标题生成任务,我们将结果与GenerativeImage2Text (GIT)进行比较,GIT是一种广泛使用的开源视觉-语言预训练模型家族,用于图像标题生成。
- 我们在一个小型的图像-标题对训练集上微调了整个模型。微调CONCH时,我们简单地将对比损失设为零,仅保留标题生成损失作为训练目标。
- 为了评估性能,我们报告了常用的METEOR(翻译评估的显式排序度量)和ROUGE(面向回忆的概要评估的替代研究)指标。
- 对于每个模型,我们最多训练40个周期,并使用提前停止策略(耐心值为10个周期)选择在验证集上具有最高METEOR的检查点。
- 在推理时,我们使用top-K采样作为解码策略生成标题,其中K = 50,即在每个时间步,过滤出最可能的K个标记并重新分配概率质量后进行采样。
- 类似于零样本分类和检索,我们将最大图像尺寸设置为448 × 448。用于微调标题生成的完整超参数集在补充表37中展示。
Evaluation metrics
- 对于分类任务,我们报告了平衡准确率、加权 F1 分数和接收器操作特征曲线下面积 (AUROC)。
- 平衡准确率定义为每个类别召回率的宏平均值。
- 加权 F1 分数是通过对每个类别的 F1 分数(精度和召回率的调和平均值)取平均值计算得出的,权重为每个类别的支持度。
- 在二元情况下,AUROC 是通过改变分类阈值来计算真阳性率与假阳性率的图形得出的。
- AUROC 被推广到多类情况,通过对所有类别对的 AUROC 取平均值。
- 对于检索,我们使用了指标 Recall@K,它是正确检索的数据在前 K 个检索样本中的比例。
- 按照 ALIGN31 的方法,我们选择了 K ∈ {1, 5, 10},并计算了平均召回率,即对 Recall@K 值取平均值。
- 对于分割,我们报告了 Dice 分数,即 F1 分数,以及精度和召回率,宏平均值跨所有图像和类别。
- 对于字幕,我们报告了 METEOR 和 ROUGE,以比较预测字幕与真实字幕。
- METEOR80 是一种基于单元匹配的度量,考虑了原始和真实字幕之间的精度和召回率,并考虑了同义词和词形。
- ROUGE81 计算了预测字幕和真实字幕之间的 n-gram 重叠度。
- 我们使用了 ROUGE-1,它考虑了单元。
Downstream evaluation datasets
下游评估数据集
- 源 A 是从保留源中提取的图像字幕对数据集。我们手动拆分了多面板图形并将其与字幕匹配。
- 由于我们还使用此数据集进行字幕添加,并且由于字幕通常嘈杂并且经常包含图像中没有的信息,因此一位受认证的病理学家清洁了文本,我们使用清洁的版本进行所有下游任务。
- 经过过滤和清洁后,我们获得了 797 张图像,平均宽度为 570 像素,平均高度为 428 像素。
- 我们整个使用此数据集进行跨模态检索。
- 我们还在执行 70-10-20 分割以进行训练、验证和测试后使用此数据集进行字幕添加。
- 为了避免信息泄露,数据集拆分是在图形级别(考虑到分离的多图形面板)执行的。
- 源 B 是从保留源中提取的图像字幕对数据集。与源 A 类似,我们手动拆分多面板图形并将其与字幕匹配。
- 经过过滤和清理后,我们获得了 1,755 张图像,平均宽度为 512 像素,平均高度为 410 像素。
- 由于该数据集比源 A 大得多,我们没有对字幕进行手动清理。
- 我们使用此数据集进行跨模态检索。
- TCGA LUAD 包含 165 个图像标题对,提取自 TCGA 的 49 张 LUAD H&E 组织病理学幻灯片(https://portal.gdc.cancer.gov/)
- 对于每张幻灯片,一位获得董事会认证的病理学家从每张幻灯片中选择了最多五块感兴趣的区域,并提供了描述组织模式和任何显著形态特征的标题。
- 此过程产生了一组165个图像块,平均宽度为656像素,平均高度为642像素。我们使用这组图像块进行跨模态检索。
- TCGA BRCA 由来自 TCGA 的 BRCA H&E 甲醛固定石蜡包埋(FFPE)诊断组织病理学 WSIs 组成。
- 该数据集包括原发性 IDC 和 ILC 的病例。
- 删除缺失元数据的幻灯片后,我们收集了总共 1,048 张幻灯片(837 张 IDC 和 211 张 ILC)。
- 零次测试集是完整 TCGA RCC 数据集的一个采样子集,包含 150 张 WSIs(每个类别 75 张)。
- 对于监督学习实验,我们保留零次测试集作为测试集,并在排除出现在测试集中的患者的幻灯片后,使用剩余的幻灯片作为监督训练集。
- 该过程产生了一个包含 881 张幻灯片的训练集(754 张 IDC 和 127 张 ILC;参见补充表 38 查看每个类别在零次分类中使用的提示)。
- TCGA NSCLC 由来自 TCGA 的 NSCLC H&E FFPE 诊断组织病理学 WSIs 组成。
- 该数据集由原发性 LUAD 和肺鳞状细胞癌(LUSC)病例组成。
- 在删除缺失或不正确的元数据幻灯片后,我们收集了总共 1,041 张幻灯片(529 张 LUAD 和 512 张 LUSC)。
- 零样本测试集是完整 TCGA RCC 数据集的采样子集,包含 150 张 WSIs(每个类别 75 张)。
- 对于监督学习实验,我们将零样本测试集作为测试集,并在排除出现在测试集中的患者的幻灯片后,使用剩余的幻灯片作为监督训练集。
- 此过程产生了一个包含 846 张幻灯片的训练集(432 张 LUAD 和 414 张 LUSC;参见补充表 38 以获取零样本分类中每个类别使用的提示)。
- TCGA RCC 由来自 TCGA 的 RCC H&E FFPE 诊断组织病理学 WSIs 组成。
- 该数据集由原发性透明细胞 RCC(CCRCC)、乳头状 RCC(PRCC)和嗜色素 RCC(CHRCC)病例组成。
- 移除缺少低分辨率下采样幻灯片后,我们收集了总共 922 张 WSIs(519 张 CCRCC,294 张 PRCC 和 109 张 CHRCC)。
- 零次测试集是完整 TCGA RCC 数据集的采样子集,包含 225 张 WSIs(每个类别 75 张)。
- 对于监督学习实验,我们将零次测试集作为测试集,并在排除测试集中出现的患者的幻灯片后,将剩余的幻灯片用作监督训练集。
- 此过程产生了一个包含 693 张幻灯片的训练集(444 张 CCRCC,215 张 PRCC 和 34 张 ChRCC;参见补充表 38 查看每个类别在零次分类中使用的提示)。
- DHMC LUAD83 由 143 张 H&E LUAD幻灯片组成,每张幻灯片都标有主要的组织学生长模式(59 个腺体,51 个实体,19 个鳞状,9 个微乳头状和 5 个乳头状)。
- 我们仅使用此数据集进行零次分类(有关零次分类中每个类别使用的提示,请参见补充表 39)。
- CRC100k84 由 224 × 224 像素图像块组成,每像素 0.5 µm,从 50 名患有结直肠腺癌的患者中提取。每张图像属于九个类别之一:脂肪、背景、碎屑、淋巴细胞、粘液、平滑肌、正常结肠黏膜、癌症相关基质或结直肠腺癌上皮。
- 对于有监督的数据集,我们使用了官方提供的训练集中的 100,000 张图像和测试集中的 7,180 张图像的分割。对于零次测试集,我们仅使用了官方测试集(有关零次分类中每个类别使用的提示,请参见补充表 40)。
- WSSS4LUAD85 包含大约 200-500 像素尺寸的 LUAD 图像块,每个块被标记为肿瘤、肿瘤相关基质和/或正常。
- 为了我们的评估,我们过滤了只有一个真实标签的样本。我们剩下 4,693 张来自官方训练分割的图像(参见补充表 41 查看零次分类中每个类别使用的提示)。
- SICAP75 包含 512 × 512 像素的图像,这些图像从 155 张前列腺癌核心针活检的全幻灯片图像(WSIs)中提取出来,并在 ×10 倍放大下数字化。
- 官方的训练和测试分割将数据集分为 9,959 张来自 124 张 WSIs 的图像用于训练,以及 2,122 张来自 31 张 WSIs 的图像用于测试。
- 每个图块都被标记为主要的 Gleason 模式(G3、G4 或 G5),或者被标记为非癌性(NC)。
- 对于零样本分类,我们仅使用官方测试集进行评估,而对于监督分类,我们使用官方分割进行训练和测试。
- 对于零样本分割(肿瘤与良性),我们使用来自官方测试分割的幻灯片以及相应的像素级分割掩码进行评估(将 Gleason 模式 G3、G4 和 G5 合并为肿瘤类别;请参阅补充表 41 以获取每个类别在零样本分类和分割中使用的提示)。
- DigestPath86 包含来自 324 名患者的 660 张结肠镜 H&E 组织切片图像,这些图像以 ×20 倍的放大倍数获得。
- 我们使用了来自 93 名患者的 250 张图像的子集,其中提供了用于结直肠癌组织的像素级病变注释,并且我们执行了零次分割评估(有关零次分割中每个类别使用的提示,请参见补充表 41)。
- EBRAINS87,88 包含来自 EBRAINS 数字肿瘤图谱的脑组织 H&E 组织病理学全幻灯片图像(WSIs)。
- 我们使用了 2,319 张幻灯片,对应于 30 种细粒度脑肿瘤亚型任务,其中仅保留至少有 30 张幻灯片的类别,以确保模型训练和评估有合理数量的幻灯片可用。
- 对于有监督数据集,我们执行了 50-25-25 的拆分,用于训练(1,151 张幻灯片)、验证(595 张幻灯片)和测试(573 张幻灯片)。
- 对于零样本测试集,我们使用了 573 张幻灯片的测试拆分(参见补充表 42-44,了解零样本分类中每个类别使用的提示)。
- 数据集中每个类别的 WSI 数量如下:(1)IDH1 野生型胶质母细胞瘤(474 张幻灯片);(2)毛细血管星形细胞瘤(173 张幻灯片);(3)脑膜细胞型脑膜瘤(104 张幻灯片);(4)垂体腺瘤(99 张幻灯片);(5)IDH1 突变和 1p/19q 代码缺失的间变性寡树突细胞瘤(91 张幻灯片);(6)神经节细胞瘤(88 张幻灯片);(7)血管母细胞瘤(88 张幻灯片);(8)牙状颅内咽管瘤(85 张幻灯片);(9)IDH1 突变和 1p/19q 代码缺失的寡树突细胞瘤(85 张幻灯片);(10)非典型脑膜瘤(83 张幻灯片);(11)神经鞘瘤(81 张幻灯片);(12)IDH1 突变弥漫性星形细胞瘤(70 张幻灯片);(13)过渡性脑膜瘤(68 张幻灯片);(14)中枢神经系统弥漫大 B 细胞淋巴瘤(59 张幻灯片);(15)胶质肉瘤(59 张幻灯片);(16)纤维性脑膜瘤(57 张幻灯片);(17)间变性室管膜瘤(50 张幻灯片);(18)IDH1 野生型间变性星形细胞瘤(47 张幻灯片);(19)转移性肿瘤(47 张幻灯片);(20)IDH1 突变间变性星形细胞瘤(47 张幻灯片);(21)室管膜瘤(46 张幻灯片);(22)间变性脑膜瘤(46 张幻灯片);(23)分泌性脑膜瘤(41 张幻灯片);(24)脂肪瘤(38 张幻灯片);(25)血管周细胞瘤(34 张幻灯片);(26)IDH1 突变胶质母细胞瘤(34 张幻灯片);(27)非翼状相关整合(Wnt)/非 Sonic Hedgehog(Shh)室管膜瘤(32 张幻灯片);(28)兰格尔汉斯细胞增多症(32 张幻灯片);(29)血管瘤性脑膜瘤(31 张幻灯片);(30)血管瘤(30 张幻灯片)。
- 前列腺Gleason分级由来自三个公开可用数据集(AGGC89、PANDA90和SICAP75)的H&E染色前列腺组织的228,482个图像ROI组成。
- 对于PANDA和AGGC,每个ROI以×10倍等效放大倍数提取,尺寸为512×512像素,并标记为NC、G3、G4或G5,使用各自数据集提供的像素级注释掩码分配。
- 我们使用此数据集比较了我们的模型与计算病理学中常用的其他视觉编码器之间的端到端微调性能。
- 我们在幻灯片级别对数据集进行分区,并将数据集拆分为训练(来自PANDA和AGGC官方训练集的4,622张幻灯片中的189,000个ROI)、验证(来自SICAP官方训练集的124张幻灯片中的10,000个ROI)和测试(来自AGGC和SICAP官方测试集的92张幻灯片中的29,000个ROI)。
WSI processing
WSI 处理
- 对于切片级任务,WSI的处理流程包括组织分割、切片和特征提取。
- 我们使用CLAM库进行组织分割,该库通过将切片从RGB颜色空间转换为色调-饱和度-明度(HSV)颜色空间后,在饱和度通道上使用二值阈值法计算组织的二值掩码。
- 使用中值模糊和形态闭合来平滑组织轮廓并去除伪影。通过面积过滤轮廓以生成分割掩码。
- 对于零样本和监督分类,我们遵循先前的惯例,将分割后的组织区域划分为连续的256 × 256像素瓦片,在×10倍等效放大倍率下进行。
- 对于分割任务,我们使用较小的瓦片尺寸(224 × 224像素),以75%的重叠在尽可能高的放大倍率下(即SICAP为×10,DigestPath为×20)提取瓦片,以实现更细粒度的预测。
- 切片完成后,对于特征提取,我们将所有瓦片调整为224 × 224像素,并使用冻结的预训练图像编码器独立计算每个瓦片的嵌入,然后将它们缓存以供下游评估。
Pretraining dataset characterization
- 我们估计了预训练字幕涵盖的主题分布。我们首先创建了一个包含19个主题的列表,这些主题涵盖了与病理学研究相关的主要解剖学部位。
- 对于每个主题,一位董事会认证的病理学家然后策划了与该主题相关的关键词列表。
- 然后,我们将字幕映射到一个主题,如果它包含一个特定的词。由于策划一个详尽的关键词集以涵盖所有字幕是不切实际的,我们使用k-最近邻居(kNN)和k = 5来分类剩余的字幕。
- 字幕在主题上的分布如图1b所示。在每个主题(以及整个数据集)中,我们使用词云(扩展数据图1)定性地可视化了字幕的内容。
Statistical analysis
统计分析
- 使用了1,000个样本的非参数自助法来构建模型性能的95%置信区间。
- 对于每个评估指标,使用1,000次置换的双侧配对置换检验来测试模型性能中观察到的差异是否具有统计显著性。
- 在每次置换中,两个模型的独立预测被随机交换,以获得新的模型性能差异。
- P值是模型性能差异绝对值大于观察到的差异的比例。
- 原假设是假设在给定测试集和评估指标下,模型性能之间没有差异。
Computing hardware and software
- 我们在研究中的所有实验和分析都使用了Python(版本3.8.13),这些实验可以通过以下列出的开源库进行复现。
- 对于任务无关的预训练,我们使用了八个80-GB的NVIDIA A100 GPU,这些GPU配置为多GPU训练,使用了由流行的开源深度学习框架PyTorch(版本2.0.0,CUDA 11.7)(https://pytorch.org)实现的DistributedDataParallel (DDP)。
- 所有下游实验都在单个24-GB的NVIDIA 3090 GPU上进行。
- 对于使用iBOT进行的视觉编码器的单模态预训练,我们修改了由Hugging Face维护的开源Timm库(版本0.9.2)(https://huggingface.co)中的ViT实现用于编码器骨干网络,并使用了原始的iBOT实现(https://github.com/bytedance/ibot)进行训练。
- 对于自然语言处理(NLP)工作流程,我们使用了Hugging Face提供的开源库。特别是,我们使用Transformers(版本4.27.3)和Accelerate(版本0.15.0)对文本数据进行标记化,并对我们的语言模型进行单模态预训练,同时使用Evaluate(版本0.4.0)来访问常见的机器翻译和图像标题生成指标,包括ROUGE(来自rouge-score版本0.1.2)和METEOR(来自nltk版本3.6.7)。
- 我们将预训练的单模态视觉编码器和语言模型集成到open clip库(版本2.14.0)中,以使用CoCa框架进行视觉语言预训练。
- 所有的WSI处理都由OpenSlide(版本4.3.1)和openslide-python(版本1.2.0)支持。
- 我们使用Scikit-learn(版本1.2.1)实现常见的图像分类机器学习模型评估指标,并使用该库训练逻辑回归模型用于线性探测实验。
- Numpy(版本1.20.3)和Pandas(版本1.5.3)用于数据收集和准备。
- 研究中基准的其他视觉语言模型的实现可以在Hugging Face模型中心找到(https://huggingface.co/models):PLIP(https://huggingface.co/vinid/plip)、BiomedCLIP(https://huggingface.co/microsoft/BiomedCLIP-PubMedBERT_256-vit_base_patch16_224)、OpenAICLIP(https://huggingface.co/openai/clip-vit-base-patch16)、GIT-base(https://huggingface.co/microsoft/git-base)和GIT-large(https://huggingface.co/microsoft/git-large)。
- Pillow(版本9.3.0)和Opencv-python被用于执行基本的图像处理任务。
- Matplotlib(版本3.7.1)和Seaborn(版本0.12.2)用于创建图表和图形。
- 其他杂项Python库的使用列在Nature Portfolio Reporting Summary中。
Data availability
- TCGA全切片数据和标签可从NIH基因组数据中心获取(http://portal.gdc.cancer.gov)。
- DHMC LUAD全切片数据和标签可通过达特茅斯生物医学信息研究与数据科学网站访问(http://bmirds.github.io/LungCancer/)。
- SICAP全切片和瓦片数据及其对应的标签可通过数据门户访问(http://data.mendeley.com/datasets/9xxm58dvs3/1)。
- CRC100k瓦片数据和标签可在http://zenodo.org/record/1214456找到。
- WSSS4LUAD图像瓦片和标签可在http://wsss4luad.grand-challenge.org/找到。
- 预训练数据是从教育资源和PubMed中的图像-标题对中精心筛选的。
- EBRAINS WSIs可在http://search.kg.ebrains.eu/instances/Dataset/8fc108ab-e2b4-406-8999-60269dc1f994找到。
- AGGC和PANDA WSIs可通过各自的Grand Challenge门户访问(http://aggc22.grand-challenge.org/data/ 和 http://panda.grand-challenge.org/data/)。
- 未处理的PubMed Central开放获取数据集可从NIH PubMed Central网站获得(http://ncbi.nlm.nih.gov/pmc/tools/openftlist/)。
- 对于本项目回顾性使用并获得机构许可的匿名患者数据的可用性,适用限制,因此这些数据不公开提供。所有对在内部收集或整理的处理或原始数据的请求应提交给通讯作者,并将根据机构和部门政策进行评估,以确定所请求的数据是否受知识产权或患者隐私义务的约束。
Code availability
- CONCH 模型权重可用于学术研究目的,网址为 http://huggingface.co/MahmoodLab/conch。
- 使用预训练模型的代码可在 http://github.com/mahmoodlab/CONCH 获取。
- 我们记录了研究中使用的所有技术深度学习方法和软件库,同时确保本文对更广泛的临床和科学受众可读。
本文由mdnice多平台发布
网友评论