
Basic Information
- 英文标题: Towards a general-purpose foundation model for computational pathology
- 中文标题:朝着计算病理学领域通用基础模型的发展
- 发表日期:19 March 2024
- 文章类型:Article
- 所属期刊:Nature Medicine
- 文章作者:Richard J. Chen | Faisal Mahmood
- 文章链接:https://www.nature.com/articles/s41591-024-02857-3
Abstract
- 组织图像的定量评估对于计算病理学(CPath)任务至关重要,这需要从全切片图像(WSIs)中对组织病理学实体进行客观表征。
- WSIs的高分辨率和形态特征的多样性带来了显著挑战,增加了为高性能应用进行大规模数据标注的复杂性。
- 为了解决这一挑战,目前的研究提出了通过迁移学习使用预训练的图像编码器,这些编码器来自自然图像数据集,或通过自监督学习使用公开可用的组织病理学数据集,但这些方法尚未在不同类型的组织中进行大规模的发展和评估。
- 我们介绍了UNI,这是一种通用的自监督病理学模型,使用来自超过100,000张诊断用H&E染色WSIs(超过77 TB的数据)中超过1亿张图像进行预训练,涵盖了20种主要的组织类型。
- 该模型在34个具有不同诊断难度的代表性CPath任务上进行了评估。
- 除了优于以前的最先进模型外,我们还展示了CPath中的新建模能力,如分辨率无关的组织分类、使用少样本类原型进行的切片分类,以及在OncoTree分类系统中对多达108种癌症类型进行的疾病亚型泛化。
- UNI在CPath中推进了大规模的无监督表示学习,在预训练数据和下游评估方面取得了进展,能够支持数据高效的人工智能模型,这些模型可以泛化并迁移到解剖病理学中各种具有诊断挑战性的任务和临床工作流程中。
Main
- 病理学的临床实践涉及执行大量任务:从肿瘤检测和分型到分级和分期,由于可能的诊断数以千计,病理学家必须擅长解决种类繁多的问题,且通常需要同时应对这些问题1,2,3,4。
- 当代计算病理学(CPath)通过实现分子改变预测5,6、预后预测7,8,9以及治疗反应预测10等应用,进一步扩展了这一任务范围11,12,13,14。
- 由于任务种类繁多,从头开始训练模型在实际操作中存在诸多限制,这主要是因为获取病理学家注释、为单一疾病建立大规模组织学集合以及获取罕见疾病数据的挑战。
- 这些因素导致CPath中依赖迁移学习技术,这些技术已在诸如转移检测15、突变预测16,17、前列腺癌分级18以及结果预测9,19,20等任务中证明了其有效性。
- 在这项工作中,我们在之前的研究基础上引入了一种通用的自监督视觉编码器UNI,这是一个大型视觉变换器(ViT-Large或ViT-L)75,经过自监督学习的最大组织切片集合之一进行预训练,称为“Mass-100K”。
- Mass-100K是一个预训练数据集,由从马萨诸塞州总医院(MGH)和布莱根妇女医院(BWH)以及基因型-组织表达(GTEx)联盟76收集的100,426张诊断用H&E WSIs中的超过1亿个组织块构成,提供了丰富的信息来源,用于学习组织病理学生物标志物的客观表征(图1a和补充表1-3)。
- 在预训练阶段,我们使用了一种名为DINOv2(参考文献22)的自监督学习方法,该方法已被证明能够在不需要进一步使用标注数据进行微调的情况下,为下游任务提供强大的即用型表示(图1b)。
- 我们展示了UNI在CPath中各种机器学习设置中的多功能性,包括ROI级分类、分割和图像检索,以及切片级弱监督学习(图1c)。
- 总的来说,我们在34个解剖病理学临床任务和一系列诊断难度上评估了UNI,如细胞核分割、原发性和转移性癌症检测、癌症分级和分型、生物标志物筛查和分子分型、器官移植评估以及包括OncoTree癌症分类系统中108种癌症类型分型在内的多项泛癌分类任务77(图1d和2a)。
- 除了优于先前的最先进模型如CTransPath37和REMEDIS38外,我们还展示了UNI的多种能力,如分辨率无关的组织分类和基于提示的少样本类原型切片分类(图2d),突显了UNI作为解剖病理学中人工智能(AI)模型进一步发展的基础模型的潜力。
- 在这项工作中,我们在之前的研究基础上引入了一种通用的自监督视觉编码器UNI,这是一个大型视觉变换器(ViT-Large或ViT-L)75,经过自监督学习的最大组织切片集合之一进行预训练,称为“Mass-100K”。
- Mass-100K是一个预训练数据集,由从马萨诸塞州总医院(MGH)和布莱根妇女医院(BWH)以及基因型-组织表达(GTEx)联盟76收集的100,426张诊断用H&E WSIs中的超过1亿个组织块构成,提供了丰富的信息来源,用于学习组织病理学生物标志物的客观表征(图1a和补充表1-3)。
- 在预训练阶段,我们使用了一种名为DINOv2(参考文献22)的自监督学习方法,该方法已被证明能够在不需要进一步使用标注数据进行微调的情况下,为下游任务提供强大的即用型表示(图1b)。
- 我们展示了UNI在CPath中各种机器学习设置中的多功能性,包括ROI级分类、分割和图像检索,以及切片级弱监督学习(图1c)。
- 总的来说,我们在34个解剖病理学临床任务和一系列诊断难度上评估了UNI,如细胞核分割、原发性和转移性癌症检测、癌症分级和分型、生物标志物筛查和分子分型、器官移植评估以及包括OncoTree癌症分类系统中108种癌症类型分型在内的多项泛癌分类任务77(图1d和2a)。
- 除了优于先前的最先进模型如CTransPath37和REMEDIS38外,我们还展示了UNI的多种能力,如分辨率无关的组织分类和基于提示的少样本类原型切片分类(图2d),突显了UNI作为解剖病理学中人工智能(AI)模型进一步发展的基础模型的潜力。
Fig. 1: Overview of UNI.

- UNI是一种基于视觉变换器架构的通用自监督视觉编码器,用于解剖病理学,它在解剖病理学的34项临床任务上实现了最先进的性能。
- a, Mass-100K是一个大规模且多样化的预训练数据集,包含从超过10万个诊断级全切片图像中采样的1亿个组织切片,涵盖了20种主要器官类型。
- b, UNI使用DINOv2自监督训练算法在Mass-100K上进行预训练,该算法包括掩膜图像建模目标和自蒸馏目标。
- c, UNI通常在解剖病理学的34项临床任务上优于其他预训练编码器(报告了8个SegPath任务的平均性能)。
- d, 评估任务包括ROI级别的分类、分割、检索和原型设计以及幻灯片级别的分类任务。更多细节见方法部分。
- class., 分类;seg., 分割;det., 检测;assess., 评估
Fig. 2: Slide-level tasks for OT-43 and OT-108, and slide-level task performance.

- a, 器官和OncoTree代码分布用于OT-43和OT-108的幻灯片级别分类任务。所有与UNI的比较均基于43种癌症类型分类和108种OncoTree代码分类任务进行评估,分别对应OT-43和OT-108。关于数据分布的更多细节见补充表4。Gen., 生殖器官;GI, 胃肠道。
- b,d, 在OT-43(b)和OT-108(d)任务中(每项任务包含1,620张幻灯片),对UNI和其他预训练编码器的宏平均AUROC进行比较。
- c,e, 在不同预训练数据规模(Mass-1K、Mass-22K、Mass-100K)下,UNI在OT-43(c)和OT-108(e)任务中的Top-1准确性(每项任务包含1,620张幻灯片)。
- f, UNI及其与其他模型在15项弱监督幻灯片级别分类任务上的监督性能对比。虚线表示每个模型在所有任务上的平均性能。所有数据以平衡准确度给出,ISUP分级除外,它以Cohen的二次加权κ系数给出。误差棒代表95%的置信区间,中心点对应于上述规定的每个指标计算值。所有任务的详细结果见补充表12至35。Ext., 外部测试集。
- g–j, 四项任务中,每类包含K ∈ {1, 2, 4, 8, 16, 32}张幻灯片的少样本幻灯片级别性能报告。
- g, 肾细胞癌亚型分类(训练集,TCGA;测试集,CPTAC-DHMC;共872张幻灯片)。
- h, 乳腺癌精细亚型分类(BRACS,共87张幻灯片)。
- i, 脑肿瘤粗粒度亚型分类(EBRAINS,共573张幻灯片)。
- j, ISUP分级(PANDA,共954张幻灯片)。箱形图显示了模型性能的四分位数值(n = 5次运行),须状图延伸到四分位距1.5倍范围内的数据点。所有任务的少样本结果见扩展数据图1。
Results
Pretraining scaling laws in CPath
CPath中的预训练扩展定律
- 基础模型的一个核心特征在于,当在更大的数据集上进行训练时,它们能够在各种任务上实现改进后的下游性能。
- 尽管像CAMELYON16(2016年淋巴结中癌症转移挑战赛)和TCGA非小细胞肺癌子集(TCGA-NSCLC)这样的数据集常被用来通过弱监督的多实例学习(MIL)算法来基准测试预训练编码器,但这些数据集仅来源于单一器官的组织切片,并且通常用于预测二元疾病状态,这并不反映现实世界中解剖病理学实践中所遇到的广泛疾病实体。
- 相反,我们通过构建一个大规模、分层和罕见癌症分类任务来评估UNI在不同组织类型和疾病类别上的泛化能力,该任务遵循OncoTree癌症分类系统。
- 使用BWH内部的切片,我们定义了一个数据集,其中包括来自43种癌症类型的5,564个全切片图像(WSI),进一步细分为108个OncoTree代码,每个OncoTree代码至少包含20个WSI。
- 根据RARECARE项目和美国国家癌症研究所的监测、流行病学和最终结果(NCI-SEER)计划的定义,108种癌症类型中有90种被指定为罕见癌症。
- 该数据集构成了两个诊断难度不同的任务的基础:43类OncoTree癌症类型分类(OT-43)和108类OncoTree代码分类(OT-108)(图2a和补充表4)。
- 这些大型多类分类任务的目标并非一定是临床实用性,而是为了评估基础模型的能力以及与其它模型相比特征表示的丰富性。
- 为了评估规模趋势,我们还使用不同数据规模对UNI进行了预训练,从Mass-100K中创建了Mass-22K(16百万张图像,21,444个WSI)和Mass-1K(1百万张图像,1,404个WSI)。
- 我们也通过使用两种不同的ViT架构大小来评估模型规模:ViT-Base(或ViT-B)和ViT-Large(或ViT-L)。
- 最后,我们也评估了自监督学习算法选择的影响,并与MoCoV3进行了比较。
- 对于弱监督的切片分类,我们遵循传统范式,首先使用预训练编码器从WSI中的含组织切片提取片级特征,然后训练基于注意力的MIL(ABMIL)算法。
- 为了反映这些任务的标签复杂性挑战,我们报告了前K准确率(K = 1, 3, 5)以及加权F1分数和接收者操作特性曲线下的面积(AUROC)性能。
- 关于OT-43和OT-108任务、实验设置、实施细节和性能的更多信息分别提供在方法部分、补充表1-11和补充表12-18中。
- 总体而言,我们在UNI中展示了自监督模型的数据和模型扩展能力,图2c和e显示了UNI在OT-43和OT-108上的扩展趋势。
- 在OT-43和OT-108上,我们将UNI从Mass-1K扩展到Mass-22K使用VIT-L时,观察到顶级准确率提高了+4.2%(P < 0.001,双侧配对排列检验)。
- 在OT-108上也观察到了类似的+3.5%性能提升(P < 0.001)。
- 从Mass-22K到Mass-100K,性能进一步提高:在OT-43和OT-108上分别提高了+3.7%和+3.0%(P < 0.001)。
- 使用VIT-B时也观察到了类似的趋势,从Mass-22K到Mass-100K期间性能趋于平稳(补充表13和16)。
- 补充表14和17显示了数据多样性和预训练长度的影响,在两项任务上从50,000次到125,000次训练迭代表现出单调改进。
- 总体来说,这些扩展趋势与许多应用于自然图像的ViT模型所观察到的发现一致,在这些模型中,较大的ViT变体随着预训练数据集的增长而表现得更好。
- 探索其他的自监督学习算法,我们还使用了带有VIT-L和ResNet-50主干的MoCoV3在Mass-1K上进行了训练,其性能不如DINOv2(补充表18)。
- 为了随着模型和数据规模的增加而扩展性能,选择算法及其超参数对于开发CPath基础模型同样重要。
- 我们将使用在Mass-100K上预训练的ViT-L的UNI与在CPath中使用的公开可用预训练编码器进行比较,在OT-43和OT-108任务上的表现:在ImageNet-1K上预训练的ResNet-50;在TCGA和PAIP上预训练的CTransPath;以及在TCGA上预训练的REMEDIS。
- 我们观察到UNI在所有基线模型中大幅度胜出。
- 在OT-43上,UNI实现了93.8%的前五名准确率和0.976的AUROC,分别在这两个指标上比次优模型(REMEDIS)高出+6.3%和+0.022(两者P值均小于0.001)(图2b和补充表12)。
- 在OT-108上,我们也观察到了类似的性能提升幅度,分别比REMEDIS高出了+10.8%和+0.020(P值小于0.001)(图2c和补充表15)。
- 总体而言,我们发现UNI能够在OT-43和OT-108上对罕见癌症进行分类,并且在所有预训练编码器之上实现了显著的性能提升。
Weakly supervised slide classification
弱监督幻灯片分类
- 此外,我们探究了UNI在15种多样化的幻灯片级别分类任务中的能力,这些任务包括乳腺癌转移检测(CAMELYON16)、前列腺癌中的国际泌尿病理学会(ISUP)分级(前列腺癌分级评估,PANDA)、心脏移植评估(内部BWH幻灯片)、脑肿瘤亚型分类(EBRAINS;代表由RARECARE项目定义的30种罕见癌症),等等。
- 类似于OT-43和OT-108的评估,我们使用ABMIL比较了从UNI预提取的特征与其他预训练编码器的特征。
- 鉴于CTransPath和REMEDIS是在几乎所有的TCGA幻灯片上进行训练的,这些模型在TCGA任务上的报告性能可能会受到数据泄露的污染,因此不公平地被夸大。
- 关于幻灯片任务、实验设置和性能的更多细节分别提供在方法部分、补充表19至21以及补充表22至35中。
- 在所有15项幻灯片级别的任务中,UNI始终超越其他预训练编码器(相对于ResNet-50平均性能提升26.4%,相较于CTransPath提升8.3%,对比REMEDIS提升10.0%),在分类罕见癌症类型或具有较高诊断复杂度的任务上观察到更大的改进(图2f)。
- 在前列腺ISUP分级(PANDA)任务中,UNI实现了0.946的二次加权Cohen’s κ系数,比下一个表现最佳的模型(REMEDIS)高出0.014(P小于0.05)(补充表29)。
- 在层级分类任务(也涉及罕见疾病类别)如胶质瘤生物标志物预测(2类IDH1突变预测和使用TCGA及EBRAINS进行的5类组织分子亚型分类)、脑肿瘤亚型分类(使用EBRAINS进行的12类粗粒度和30类细粒度脑肿瘤亚型分类)等方面,UNI的表现优于下一个最佳模型(无论是CTransPath还是REMEDIS),分别提升了2.0%(P等于0.076)、6.4%(P等于0.001)、19.6%(P小于0.001)和16.1%(P小于0.001)(补充表31至34)。
- 与OT-43和OT-108类似,我们发现UNI在仅涉及罕见癌症类型的脑肿瘤亚型评估任务中影响最大。
- 通过对比现有的排行榜,我们发现使用UNI特征的ABMIL超越了许多复杂的MIL架构。
- 在乳腺癌转移检测(CAMELYON16)上,使用UNI的ABMIL在这个任务上超越了所有最先进的MIL方法(补充表36),并且是在原始挑战中少数几个超越人类病理学家表现(AUROC为0.966)而没有时间限制的MIL结果之一。
- 在诸如前列腺ISUP分级(PANDA)和细胞介导的异体移植排斥(BWH-EMB)等任务的详细比较中,使用UNI的ABMIL超越了WholeSIGHT和CRANE等方法(补充表37和38)。
- 尽管许多这些比较由于使用了带有ImageNet迁移(ResNet-50IN)特征的ResNet-50而不完全等价,但值得注意的是,他们提出的MIL架构通常是专门为解决这些具有挑战性的任务而设计和开发的。
- 我们的比较突显了拥有更好预训练编码器相较于MIL架构的优势。
- 数据污染是在大量公共数据集上训练的基础模型中的一个问题。
- 虽然标签可能不会在自监督训练过程中明确泄露到模型中,但在评估测试集上预训练的模型可能会表现出乐观偏见的性能,这种情况在其他CPath研究中已经观察到。
- 我们还比较了UNI与CTransPath和REMEDIS在非小细胞肺癌(NSCLC)亚型分类、肾细胞癌(RCC)亚型分类、胶质瘤IDH1突变预测以及胶质瘤组织分子亚型分类等任务上的TCGA测试集的表现,观察到领域内与领域外表现比较时性能下降。
- 在NSCLC亚型分类中,REMEDIS在TCGA评估中优于UNI(97.3%对94.7%),但在CPTAC(临床蛋白组肿瘤分析联盟)评估中表现较差(79.0%对96.3%)。
- 在胶质瘤IDH1突变预测中,CTransPath和REMEDIS在TCGA评估中优于UNI(89.1%和81.9%对80.8%),但在EBRAINS评估中表现较差(83.6%和79.2%对85.6%)。
- 我们强调,数据污染仅存在于模型的应用方式中,而不是模型本身,这些模型已经在独立于TCGA的设置中显示出良好的迁移能力。
- 鉴于许多CPath研究使用TCGA来研究各种癌症类型,因此,在公共组织学数据集和基准上开发病理学AI模型方面,UNI比CTransPath和REMEDIS更灵活
Label efficiency of few-shot slide classification
少量样本幻灯片分类的标签效率
- 我们还在所有幻灯片级别的任务上对UNI进行了少量样本多实例学习评估。
- 少量样本学习是一种评估方案,研究模型在新任务(C类)上的泛化能力,给定有限数量的示例(每类K个训练样本,也称为支持或镜头)。
- 对于所有预训练编码器,我们使用K ∈ {1, 2, 4, 8, 16, 32}个每类训练样本训练了一个ABMIL模型,其中K由于罕见疾病类别中的小样本量而限制为32。
- 考虑到性能可能因每类选择的K个样本的不同而波动,我们重复实验五次,每次随机采样C × K个训练样本。
- 关于少量样本多实例学习实验和性能的更多细节在方法部分和扩展数据图1中给出。
- UNI通常在所有任务上胜过其他预训练编码器,并具有更高的标签效率,特别是在罕见疾病分类方面(图2g至j及扩展数据图1)。
- 当比较UNI与其他编码器的4-shot性能(使用中位数性能)时,其他表现次佳的编码器每类需要多达八倍的训练样本来达到与UNI相同的4-shot性能。
- 在前列腺ISUP分级(PANDA)上,UNI在所有少量样本设置下始终保持两倍于其他编码器的标签效率(图2j)。
- 在诸如精细脑肿瘤亚型分类(EBRAINS)等具有挑战性的罕见癌症亚型分类任务上,UNI的4-shot性能远超其他编码器,仅由REMEDIS的32-shot性能相当(图2i)。
- 总体而言,我们对切片分类任务的全面评估证明了UNI作为基础模型的潜力,该模型可用于筛查罕见和代表性不足疾病的组织病理学工作流程中。
Supervised ROI classification in linear classifiers
在线性分类器中的监督区域感兴趣分类
- 除了幻灯片级别的任务外,我们还评估了UNI在11种多样化的ROI级别任务上的表现,这些任务包括结直肠组织和息肉分类(CRC-100K-NONORM98、HunCRC99、UniToPatho100)、前列腺腺癌(PRAD)组织分类(2022年自动Gleason分级挑战赛)、泛癌症肿瘤-免疫淋巴细胞检测(TCGA-TILS)、32类泛癌症组织分类(TCGA统一肿瘤)等。
- 为了进行评估和比较,我们在每个编码器预提取特征的基础上执行逻辑回归和K近邻(KNN),这是一种常见的做法,被称为线性探测和KNN探测,分别用于衡量判别性能和预提取特征的表示质量。
- 我们使用平衡准确率来评估所有任务的表现,而对于PRAD组织分类则采用加权F1分数。
- 关于ROI任务的更多细节、实验设置以及表现情况,请参见方法部分和补充表39至60。
- 在所有11项ROI级别的任务中,UNI在所有任务上几乎都优于所有基线模型,对于ResNet-50、CTransPath和REMEDIS,在线性探查上的平均性能提升分别为+18.8%、+7.58%和+5.75%(图3a)。
- 在KNN探查上,UNI同样优于ResNet-50、CTransPath和REMEDIS,平均性能提升分别为+15.6%、+8.6%和+9.4%。
- 我们发现,在具有挑战性的任务上取得了更大的进步,例如前列腺组织分类(按加权F1得分计算,分别提高了+0.131、P小于0.001;+0.020、P小于0.001;+0.027、P小于0.001)以及食道癌亚型分类(分别提高了+25.3%、P小于0.001;+10.1%、P小于0.001;+5.5%、P小于0.001),与另外三种预训练编码器相比。
- 图3b展示了UNI在前列腺癌分级预测中的表现,其中使用预先提取的UNI特征训练的简单线性分类器可以达到与病理学家注释的高度一致性(扩展资料图2)。
- 在32类泛癌症组织分类任务中(其中32类中有19类是罕见癌症),UNI实现了最高的总体平衡准确率和AUROC,分别为65.7%和0.975,相对于次优模型(REMEDIS)分别高出+4.7%和+0.017(两者P值均小于0.001)。
Fig. 3: ROI-level tasks.

- a, UNI 的监督线性探针性能及其在 11 项 ROI 级别分类任务中的比较。除 PRAD 组织分类采用加权 F1 分数外,所有结果均以平衡准确度给出。虚线代表每个模型在所有任务上的平均性能。误差棒表示 95% 的置信区间,中心对应于上述指定的每个指标计算出的值。所有任务的详细结果见补充表 39 至 60。
- b, UNI 在 AGGC 中 PRAD 组织分类的 ROI 级别分类示例。左侧:WSI 上叠加的真实 ROI 级别标签。右侧:预测的切片标签。为了更好地可视化,ROI 被放大,并在扩展数据图 2 中显示了进一步的比较。
- c, UNI 在 PRAD 组织分类(AGGC,n = 345,021 个 ROI)上的 ROI 检索性能。我们报告了 Recall@K 对于 K ∈ {1, 3, 5} 和平均召回率,误差棒代表 95% 的置信区间,中心对应于每个指标计算出的值。
- d, UNI 在 BACH 中不同图像分辨率下的 BRCA 亚型分类任务中的监督 KNN 探针性能(n = 80 个 ROI)。所有任务的检索性能在扩展数据图 3 和补充表 63 至 68 中提供。
- e, UNI 在 BACH 中不同图像分辨率下多头自注意力(MHSA)热图可视化。每个彩色方块代表由 UNI 编码的 16 × 16 像素的切片面标记,热图颜色对应该切片面标记对 UNI 最后一层全局 [CLS](即分类)标记的注意力权重。顶部和底部分别是侵袭性和正常标记图像的可视化,进一步的可视化和解释在扩展数据图 4 至 6 中提供。比例尺:b, 真实情况和预测,2 毫米;预测(1)和预测(2),200 微米;插图,30 微米;e, ROI 图像,32 微米;2242,64 像素;4482,128 像素;8962,256 像素;1,3442,384 像素。
- 我们还将 UNI 的性能与官方排行榜上的表现进行了比较。
- 对于肿瘤-免疫淋巴细胞检测,与 ChampKit 基准测试中表现最佳的模型相比,该模型报告的 AUROC 为 0.974,假阴性率 (FNR) 为 0.246,而 UNI 的 AUROC 达到 0.978,FNR 为 0.193(未进行染色标准化)(补充表 61)。
- 对于乳腺癌转移检测(CAMELYON17-WILDS 排行榜),与迄今为止的最佳模型相比,该模型在外域验证集和测试集上的准确率分别为 95.2% 和 96.5%,UNI 分别达到 97.4% 和 98.3%(补充表 62)。
- 我们注意到,这些比较中的许多模型都是通过从自然图像(而非病理图像)进行迁移学习端到端微调的。
- 尽管这些实验设置与 UNI 不完全相同,但这些比较突显了 UNI 的通用性,因为使用线性分类器直接评估的性能与采用端到端微调的最先进技术相当。
ROI retrieval
ROI检索
- 除了利用UNI中的表示来构建特定任务的分类器外,还可以将这些表示用于图像检索。
- 检索类似于K近邻算法(KNN),我们评估查询图像能否有效地检索出同一类别的其他图像,鉴于视觉上相似的图像在表示空间中应该比视觉上不同的图像更接近。
- 与KNN评估不同,我们考虑的是检索准确性,即Acc@K对于K属于{1, 3, 5}的情况,如果正确标记的图像是检索结果中的前K个之一,则认为检索成功;以及MVAcc@5,它使用前5个检索结果的多数投票。
- 我们在六个ROI级别的任务(至少有5个类别的任务)上评估组织学图像检索。
- 关于ROI检索实验和性能的更多细节,请参见方法部分、扩展数据图3以及补充表63至68。
- UNI 在所有任务上均优于其他编码器,展示了在多种设置下卓越的检索性能。
- 在前列腺腺癌组织分类(AGGC)任务上,UNI 分别在 Acc@1 和 MVAcc@5 上比表现次优的编码器(REMEDIS)高出 +4% 和 +3.3%(两者 P 值均小于 0.001)(图 2c)。
- 在结直肠癌(CRC)组织分类任务(CRC-100K)上,最佳编码器之间的差距相对较小(与 REMEDIS 相比分别高出 +3.1%,P 值小于 0.001 和 +0.01%,P 值等于 0.188),这可能是因为不同类型的组织具有非常独特的形态,如线性探测中的较高分类性能所示。
- 在更具挑战性的包含许多罕见癌症类型的 32 类泛癌症组织分类任务上,UNI 在 Acc@1 和 MVAcc@5 上分别比第二好的编码器(REMEDIS)高出 +4.6% 和 +4.1%(两者 P 值均小于 0.001)。
Robustness to high image resolution
对高分辨率图像的鲁棒性
- 虽然视觉识别模型通常使用调整大小为224×224像素(224²像素)的图像进行评估,但图像缩放会改变每像素微米数(mpp),这可能会影响形态特征(如细胞非典型性)的解释。
- 我们研究了在不同分辨率下,乳腺浸润性癌(BRCA)亚型分类(乳腺癌组织学图像大挑战,BACH)(从2.88 mpp下的224²像素到0.48 mpp下的1,344²像素)以及CRC息肉分类(UniToPatho)(从3.60 mpp下的224²像素到0.45 mpp下的1,792²像素)时,UNI中的特征质量如何受到影响,并采用线性和K近邻(KNN)探查方法。
- 有关多分辨率实验和性能的更多细节,请参见方法部分、扩展数据图4及补充表45、46、51和52。
- 我们在两项任务中展示了UNI对不同图像分辨率的鲁棒性,以及在高分辨率ROI任务中图像缩放引入的偏置。
- 当我们调整用于评估的图像分辨率时,我们观察到其他编码器的表现下降更为严重,例如在BRCA亚型分类中CTransPath和REMEDIS的KNN性能分别下降了18.8%和32.5%(2242像素与13442像素相比),而UNI仅下降了6.3%。
- 在CRC息肉分类中,尽管其他编码器没有显著的性能下降(2242像素与17922像素相比),但UNI通过KNN探针提高了5.1%。
- 图2e和扩展数据图5及6展示了当评估高分辨率图像时,UNI如何突出更精细的视觉特征。
- 在CRC息肉分类中,将图像缩放到2242像素会掩盖定位隐窝的重要细节,而这些细节在高分辨率下能够被UNI检测到。
- 这些观察表明,UNI可以编码出与大多数图像分辨率无关的语义有意义的表示,这对于已知在不同图像放大倍数下最优的CPath任务来说具有价值。
ROI cell type segmentation
ROI细胞类型分割
- 我们在最大的公共ROI级分割数据集SegPath102上评估UNI,该数据集用于肿瘤组织中八种主要细胞类型的分割:上皮细胞、平滑肌细胞、红血球、内皮细胞、白细胞、淋巴细胞、浆细胞和髓样细胞。
- 所有预训练编码器均使用Mask2Former103端到端微调,这是一个通常用于评估预训练编码器现成性能的灵活框架。
- 鉴于SegPath数据集将细胞类型划分为独立的密集预测任务(总共八个任务),每个编码器根据细胞类型单独进行微调,以骰子系数作为主要评估指标。
- 有关分割任务和性能的更多细节在方法部分和补充表69中提供。
- 尽管分层视觉主干网络(如Swin变换器(CTransPath)和卷积神经网络(CNN;ResNet-50和REMEDIS))在分割任务上相比视觉变换器(UNI)具有众所周知的优势,我们观察到UNI在SegPath的大多数细胞类型上仍然超越所有比较对象。
- 对于上皮细胞、平滑肌细胞和红血球这三种细胞类型的单独分割任务,UNI分别取得了0.827、0.690和0.803的Dice得分,分别比表现第二好的编码器(REMEDIS)高出+0.003(P = 0.164)、+0.016(P < 0.001)和+0.008(P = 0.001)。
- 在SegPath中的所有八种细胞类型中,UNI实现了平均Dice得分为0.721的整体性能,超过了ResNet-50(0.696)、CTransPath(0.695)和REMEDIS(0.716)。
- 扩展资料图7展示了通过UNI和其他编码器对所有细胞类型的分割可视化,所有比较方法都能很好地匹配真实分割结果。
- 总体而言,我们发现UNI可以在分割任务上超越最先进的CNN和分层视觉模型,进一步扩展了它在不那么常规环境中的多用途性。
Few-shot ROI classification with class prototypes
基于类原型的少量样本区域感兴趣分类
- 类似于幻灯片级别的分类,我们也评估了UNI在ROI级别任务上的标签效率。
- 我们使用非参数SimpleShot框架评估所有预训练编码器,该框架是在小样本分类文献中的一个强大的基线,它提出将每个类别的提取特征向量平均作为K=1最近邻(或最近质心)分类的支持实例。
- 这些平均特征向量也可以视为"类别原型",即一组单样本示例,它们在表示语义信息(例如,肺腺癌(LUAD)与肺鳞状细胞癌(LUSC)的形态)方面是独特的。
- 在测试时,通过欧几里得距离将未见过的测试示例分配给最近的类别原型(图4a)。
- 对于所有预训练编码器,我们使用SimpleShot评估它们预先提取的特征,其中K∈{1, 2, 4, 8, …, 256}每类训练样本,对于大多数任务,实验重复1,000次,每次运行随机采样C×K训练样本。
- 关于小样本ROI实验和性能的更多细节,请参见方法部分和扩展数据图8。
Fig. 4: Few-shot ROI- and slide-level prototyping.

- 通过 SimpleShot 实现原型少量样本区域感兴趣(ROI)分类。通过平均同一类别ROI提取出的特征来构建类别原型。对于测试ROI,SimpleShot将类别分配给与最相似的类别原型(最小欧几里得距离)相同的预测ROI标签。
- 通过 MI-SimpleShot 实现原型少量样本幻灯片分类。使用预先计算的一组ROI级别的类别原型(具有与幻灯片相同的类别标签),MI-SimpleShot利用来自WSI中查询到的前K个切片与类别原型之间最高平均相似度的类别原型来预测幻灯片标签。相似性热图可视化了真实类别原型与WSI中的每个切片之间的相似性。
- c至e,通过SimpleShot在三个任务上实现少量样本ROI分类性能,其中箱形图表示模型性能的四分位数(n = 1,000次运行),须触线延伸至四分位距1.5倍内的数据点。
- c,泛癌症组织分类(TCGA,n = 55,360个ROI)。
- d,结直肠癌息肉分类(UniToPatho,n = 2,399个ROI)。
- e,前列腺腺癌组织分类(AGGC,n = 345,021个ROI)。所有任务的少量样本ROI性能均在补充数据图8中提供。
- f和g,通过MI-SimpleShot实现少量样本幻灯片分类性能和相似性热图,用于非小细胞肺癌(NSCLC)亚型分类(训练集,TCGA;测试集,CPTAC;n = 1,091张幻灯片)(f)和肾细胞癌(RCC)亚型分类(训练集,TCGA;测试集,CPTAC-DHMC;n = 872张幻灯片)(g)。在这两个任务中,使用从UNI预提取的特征,我们将MI-SimpleShot与ABMIL在相同的小样本设置下进行比较(箱形图表示模型性能的四分位数值,n = 5次运行,须触线延伸至四分位距1.5倍内的数据点),并可视化相似性热图以及LUSC(f)和CCRCC(g)幻灯片中最相似的前5个切片(用红色边界框标记)。比例尺:WSI,2毫米;检索到的前5个切片,56微米。进一步的细节、比较和可视化在方法部分及补充数据图8至10中提供。
- 在各种任务和评估设置中,我们发现 UNI 是一个强大的少量样本学习者,并且比其他预训练编码器具有更高的标签效率。
- 当比较 UNI 与其他编码器在 8 个样本情况下的中位性能时,UNI 在许多任务上始终超过了下一个表现最佳的编码器在 128 个样本和 256 个样本情况下的性能(图 4c–e 和扩展数据图 8)。
- 我们注意到所有编码器在 1 个样本和 2 个样本情况下的性能方差可能很高,这是由于随机选择作为原型的感兴趣区域(ROIs)的选择,可能会受到 H&E 染色变化的影响。
- 然而,随着支持示例数量的增加以形成类别原型,我们观察到少量样本性能运行的方差呈单调下降(在 UNI 的 256 个样本性能中,跨任务的标准偏差范围为 0.32%-1.59%),这表明了在 SimpleShot 中将训练示例平均化为类别原型时性能的稳定性。
- 尽管如此,我们观察到 UNI 的最低少量样本性能有时会超过其他编码器在 1,000 次运行中报告的最大少量样本性能。
- 在泛癌症组织分类中,UNI 在 2 个样本、8 个样本和 32 个样本评估中的最差性能运行分别优于 ResNet-50、CTransPath 和 REMEDIS 的最佳可能运行。
- 这些发现证明了 UNI 的优越标签效率和表示质量,因为仅从少数几个感兴趣区域提取特征的平均值就可以创建有效的类别原型。
Prompt-based slide classification using class prototypes
基于提示的幻灯片分类使用类别原型
- 虽然通过MIL的弱监督学习已经改变了幻灯片级别的分类,使得不再需要ROI注释81,但对于处理罕见和代表性不足疾病的临床任务来说,访问和整理组织切片收藏仍然可能存在障碍。
- 从观察到UNI在检索性能和少量样本学习能力方面的强大表现,我们重新审视了使用类别原型进行少量样本幻灯片分类的问题。
- 类似于文本提示55,我们将SimpleShot中的类别原型也用作多数投票的"提示",对检索出的前K个切片(前K池化)进行投票,我们将其称为多重实例SimpleShot(MI-SimpleShot)(图4b)。
- 我们在与训练ABMIL模型相同的几折上评估MI-SimpleShot在少量样本幻灯片分类的表现,使用的原型是利用泛癌组织分类任务68中标注的ROI(来自训练幻灯片)创建的。
- 我们也比较了MI-SimpleShot使用其他预训练编码器的情况,以及作为UNI基线的MIL。
- 我们还开发了相似性热图,显示了幻灯片中所有切片相对于真实标签类别的类原型的归一化欧氏距离,病理学家标注的匹配幻灯片标签的组织区域用蓝色勾勒。
- 关于MI-SimpleShot实验和性能的更多细节在方法部分、扩展数据图9和10以及补充表70和71中提供。
- 我们仅使用每类别的少量标注的ROI示例作为原型,展示了将UNI与MI-SimpleShot结合应用作为一种简单但高效的系统,在滑动级别疾病亚型分类和检测方面的潜力。
- 在NSCLC和RCC亚型分类(在TCGA上训练并在外部队列上测试)中,使用前五池化的MI-SimpleShot在使用每类别1、2和4张训练幻灯片创建原型时,性能优于ABMIL,并且在使用更多幻灯片时表现出与ABMIL相似的性能(图4f,g)。
- 通过相似性热图观察到,UNI检索出的幻灯片(对应于幻灯片标签)与病理学家的注释高度一致,如图4f,g右侧所示的LUSC和透明细胞肾细胞癌(CCRCC)幻灯片。
- 我们认为MI-SimpleShot的有效性可归因于它不需要可训练参数(ABMIL模型可能仍然会在少量示例设置下过度拟合或欠拟合),以及UNI特征对于ROI检索的强大表示质量。
- 尽管可以使用其他预训练编码器来学习MI-SimpleShot中的原型,但UNI可能对H&E染色变化不那么敏感。
- 这在RCC亚型分类的一次性性能的高标准偏差中得以体现(无论是ABMIL在扩展数据图1中还是一次性MI-SimpleShot在扩展数据图9中),其中MI-SimpleShot仅使用一个站点来学习一个类别原型。
- 这一点也在乳腺转移检测(CAMELYON17-WILDS)的SimpleShot评估中得到强调,因为CTransPath和REMEDIS在两个域外医院测试队列之间的性能差异比UNI更大(准确率差异分别为12.3%和12.8%,而UNI仅为5.1%),这暗示了H&E染色强度可能会影响检索性能(补充表42)。
- 在扩展数据图10中,我们观察到了预测标签与病理学家注释不符的错误检索实例。
- 总体而言,我们通过MI-SimpleShot评估UNI的方式展示了视觉为中心的基础模型凭借强大的检索能力如何可能促进解剖病理学的应用。
Discussion
- 在这项研究中,我们展示了UNI的多功能性,这是一个通用的、自监督的模型,该模型在一个迄今为止病理学领域内最大的组织切片集合上进行了预训练。
- 我们整理了Mass-100K,一个预训练数据集,包含超过1亿个来自20种主要器官类型的组织切片,包括正常组织、癌变组织和其他病理类型。
- 利用DINOv2自监督学习方法(已证明可以扩展到大型数据集),我们开发并验证了一个ViT-L模型(在Mass-100K上预训练),该模型在各种任务中始终超越其他组织病理图像编码器。
- 尽管根据任务不同,CTransPath和REMEDIS可能达到类似的性能,但我们的发现表明这些编码器在检索能力、标签效率以及对H&E染色强度的潜在偏见方面存在局限性,在域外评估中尤其如此。
- 作为可能在CPath中启用多样临床应用的视觉为中心的基础模型,开发UNI时遇到了几个挑战,特别是关于模型和数据扩展等因素如何影响迁移性能的问题。
- 尽管许多经验研究探讨了这些组成部分以实现自然图像的良好泛化,但许多解决方案可能由于病理学图像与自然图像之间的差异而无法转移。
- 例如,虽然MoCoV3在ImageNet上相对于DINOv2的表现较低但仍具竞争力,但在Mass-1K上开发ViT-L时采用相同的训练配置,在OT-108上的表现存在较大差距。
- 根据我们的研究,我们注意到最近出现了几项在更大规模组织切片数据集上进行训练的研究。
- 不同于先前和近期的工作,我们的研究独特之处在于提供了关于CPath中自监督模型的扩展规律和迁移学习能力的独特见解。
- 尽管模型和数据规模是构建视觉为中心的自监督学习的重要组成部分,但我们发现自监督学习(SSL)算法的选择是最具影响力的因素,其中MoCoV3(基于Mass-1K的ViT-L)不仅逊于其DINOv2对应版本,而且也逊于CTransPath和REMEDIS。
- 增加模型规模(从ViT-B到ViT-L)和数据规模(Mass-1K和Mass-100K)确实反映了性能提升,但值得注意的是,UNI的各种变体在OT-43和OT-108上的表现相对接近,并且相较于CTransPath和REMEDIS有一致的改进,这表明即使使用较小的模型和较少的数据也能开发出具有竞争力的预训练编码器。
- 随着UNI展示的众多临床应用,我们相信对上述因素的测试将指导CPath从业者利用自己的内部切片集合开发自己的基础模型
- 关于UNI可以应用于的广泛临床任务,与其它编码器相比,我们发现UNI在分类罕见和代表性不足的疾病方面表现出色,例如OT-108基准中的108种罕见癌症类型中的90种,EBRAINS数字肿瘤图谱中的30种罕见脑肿瘤诊断,以及来自TCGA的泛癌组织分类中的32种癌症亚型中的19种。
- 在这些任务以及其他任务上,UNI相较于表现次优的编码器(如REMEDIS或CTransPath)展现出了一致且显著的性能提升。
- 我们推测,UNI的表现归因于预提取特征的强大表示质量,这一点在利用类别原型进行的小样本ROI和幻灯片分类中可见一斑。
- 在罕见癌症类型在当前幻灯片数据集中很少见且代表性不足的弱监督范式下,使用UNI的MI-SimpleShot表明,每类标注四个幻灯片即可超越特定任务的MIL算法。
- 总体而言,我们认为UNI和其他正在开发的视觉为中心的基础模型能够在使能创造性的临床应用方面产生变革性影响,这些应用通常需要数量级更多的数据才能实现
- 与公开排行榜上的模型相比,我们认为UNI在CPath领域也标志着从特定任务的模型开发向通用AI模型的重大转变。
- 除了本研究中评估的34项临床任务外,UNI在开箱即用的情况下与其他已发表作品的结果相比具有竞争力,超越了通常采用端到端训练或使用精心设计的训练方法来解决这些特定公开挑战的领先模型。
- 总体而言,我们的发现突显了拥有更好预训练编码器的优势,而不是开发针对狭窄临床问题的特定任务模型,我们希望这将引导CPath领域的研究方向转向开发更具有性能和灵活性、能够针对病理学中多种临床应用的通用AI模型。
- 遵循计算机视觉领域自监督模型的传统命名规则,诸如‘基础模型’这样的标签可能会产生误导性的期望。
- 我们的研究有几个局限性。基于ViT-L架构,UNI缺乏解决CPath中的密集预测任务所需的具体视觉偏置,并且我们注意到,在SegPath中的细胞类型分割性能提升不如在其他任务中那么显著。
- 我们预计随着适用于分割任务的ViT架构改进方法的出现,将进一步改善这一情况。
- 我们的研究也没有评估DINOv2中表现最佳的ViT-Giant架构,这是一个更大的模型,很可能在CPath中有很好的应用,但对预训练所需的计算资源需求更高。
- 尽管据我们所知,我们的研究组织了最大的临床任务集合来评估CPath中的预训练模型,但在我们的分析中并未包括细胞病理学或血液病理学等其他临床任务。
- 由于我们的评估范围广泛以及某些任务验证集较小(或缺失),超参数被固定下来,这遵循了CPath领域其他工作的方法。
- 进一步的超参数调整和其他训练方法可能有助于进一步提高结果;然而,我们的评估协议旨在对预训练编码器主干的表示质量进行排名。
- 在开发UNI的过程中,虽然Mass-100K是有意开发以不与大多数公共组织学集合重叠,但如果同一模型在多种应用中重复使用,特别是如果它对不同人群产生不同的影响,则应进一步研究如数据污染和图像采集变化等偏置。
- UNI是一个用于CPath的单模态模型,这意味着跨模态检索和视觉问答等多模态能力不在当前范围内,这是我们并行工作中探索的内容。
- 最后,UNI目前仅是CPath中的ROI级模型,而病理学中的大多数临床任务是在切片或患者级别执行的。
- 未来的工作将侧重于利用UNI作为构建块来开发切片级别的自监督模型以及解剖病理学中的通用切片级别病理AI开发。
Methods
ROI retrieval
ROI检索
- 为了评估不同编码器为组织病理学图像的内容基于图像检索产生的嵌入质量,我们使用了区域级分类数据集,在这些数据集中,目标是检索与给定查询图像相似的图像(即具有相同类别标签的图像)。
- 对于每个基准测试,我们首先使用预训练的编码器将所有图像嵌入到低维特征表示中。
- 我们将测试集中的每张图像视为一个查询。
- 每个查询图像与来自区域级分类训练集的每张图像进行比较,该训练集作为候选图像(键)的数据库。
- 请注意,在这些实验中没有进行监督学习,类别标签仅用于评估目的(即评估检索出的图像是否与查询图像共享相同的类别标签)。
- 我们首先通过从每个嵌入中减去它们的欧几里得质心来中心化候选图像数据库,然后对每个键进行ℓ2归一化至单位长度。
- 对于每个新的查询,我们应用相同的平移和归一化步骤,然后通过ℓ2距离度量将其与数据库中的每个键进行比较,其中较短的距离被解释为更高的相似度。
- 检索出的图像按其相似度得分排序,并使用它们对应的类别标签来评估特定检索的成功率,使用Acc@K(对于K属于1、3、5)和MVAcc@5来进行评估,这些指标在评估指标部分进行了描述。
ROI-level cell type segmentation
ROI级别的细胞类型分割
- 为了训练和评估ROI级别的细胞类型分割任务,我们遵循先前的工作,采用Mask2Former,这是一个灵活的框架,常用于评估预训练视觉编码器的现成性能。
- 对于非层次结构的ViT架构,我们还使用了ViT-Adapter框架与Mask2Former头部一起。
- 对于ViT-Adapter和Mask2Former,我们使用ADE20k语义分割中相同的超参数。
- 具体来说,我们使用AdamW优化器以及阶梯式学习率调度。
- 初始学习率设置为0.0001,并应用了0.05的权重衰减。
- 为了针对骨干网络特别调整学习率,我们应用了一个0.1的学习率乘数。
- 此外,在总训练步数的0.9和0.95比例处,我们将学习率衰减10倍。
- 对于所有骨干网络,我们用全模型进行50个周期的微调,批次大小为16。
- 每5个周期在验证集上评估模型性能,并根据验证性能保存最佳模型以供测试。
- 为了增强数据,我们使用大规模抖动(LSJ)增强,随机缩放范围为0.5至2.0,然后固定尺寸裁剪到896×896像素,以适应CTransPath的尺寸限制。
- 在推理阶段,我们将图像尺寸调整为其最接近的224的倍数
Few-shot ROI classification and prototype learning
少量样本的ROI分类与原型学习
- 对于少量样本分类任务,我们遵循先前的研究,采用SimpleShot框架来评估自监督模型原型表示的少量学习性能。
- 原型(或称原型)学习是少量样本学习领域一个长期存在的任务,它也以多种形式出现在CPath中。
- 与基于元学习的传统少量样本学习器不同,SimpleShot及相关工作表明,强大的特征表示结合特定变换和简单分类器可以在少量样本任务上达到最先进的性能。
- SimpleShot类似于最近邻分类,在这种分类方法中,训练集(在少量样本学习文献中称为"支持集")从C类("方式")中抽取,每类有K个样本("射击数"),用于预测测试集("查询集")中的未见图像。
- 与最近邻分类不同,SimpleShot采用基于ProtoNet的最近中心点法,其中每类的平均特征向量(中心点)用作原型"一射击"示例,通过距离相似性对查询集进行标记。
- 值得注意的是,这些平均特征向量也可以视为"类别原型",即一组独特的单次示例,它们在代表语义信息(如LUAD与LUSC形态学的类别标签)方面具有独特性。
- 鉴于SimpleShot是少量样本学习社区中简单而出人意料的强大基线,并且在评估自监督模型时被广泛使用,我们在评估UNI及其在少量样本ROI分类任务中的比较时采用了这一基线。
- 我们遵循SimpleShot的建议,建议在计算类别原型之前对支持集进行居中处理(减去在支持集上计算的均值)和ℓ2规范化,同时查询集也在最近中心点分类之前进行转换(同样使用支持集的均值进行居中处理)
- 传统的少量样本学习方法在自然图像分类任务上的评估是通过从训练集抽取10,000个C类、K样本的实例完成的,每个类别包含15个查询图像作为测试集。
- 为了与线性和K近邻探测中的指标进行等效比较,我们改为抽取1,000个C类、K样本的实例,但使用每个实例中的所有测试集图像。
- 由于ROI任务中可用的训练样本数量相对较多,超过了幻灯片任务中的数量,我们改变每类标记样本的数量,取值范围为K ∈ {1, 2, 4, 8, 16, 32, …256}或给定类别中可获得的最大标记样本数。
- 为了与使用所有训练样本的线性和K近邻探测进行比较,我们也通过计算每类的所有训练样本平均值来评估SimpleShot方法,我们在补充表40至60中将其表示为‘1-NN’。
Prompt-based slide classification using multiple instance SimpleShot
基于提示的幻灯片分类使用多实例SimpleShot
- 为了评估提取的表示作为幻灯片分类任务中的类别原型的质量,我们将SimpleShot(如上所述)中的类别原型改编为‘提示’(类似于零样本分类中对文本提示的使用),我们将其称为MI-SimpleShot。
- 正如主文中所述,我们使用了两个幻灯片级别的数据集(非小细胞肺癌(NSCLC)和肾细胞癌(RCC)亚型数据集),它们具有与可用于支持集的数据集相匹配的ROI训练样本。
- 简而言之,我们使用来自TCGA统一肿瘤数据集的注释LUAD和LUSC ROI进行NSCLC亚型分类,并使用注释的透明细胞肾细胞癌(CCRCC)、乳头状肾细胞癌(PRCC)和嫌色性肾细胞癌(CHRCC) ROI进行RCC亚型分类。
- TCGA统一肿瘤数据集(在方法部分进一步描述)包含32种癌症类型的271,170个256×256像素的ROI,大约0.5微米/像素,这些ROI从8,736个H&E FFPE诊断组织病理学全切片图像中注释并提取。
- 我们注意到,在TCGA-LUAD、-LUSC、-CCRCC、-PRCC和-CHRCC队列中,每个幻灯片的注释ROI数量范围从10到70个样本。
- 对于每个类别,我们首先使用预训练编码器将支持集中的ROI嵌入低维特征表示,然后对类中的所有ROI特征进行平均池化。
- 平均池化的特征表示被视为类别原型,这些原型通过归一化欧几里得距离相似度用作标记查询集中每个幻灯片的前K个ROI的提示。
- 幻灯片级别的预测是通过对前K个ROI预测进行多数投票得出的。
- 对于每个基准测试,我们使用相同的五个折叠评估MI-SimpleShot,这些折叠与训练好的ABMIL模型相同,采用每类{1, 2, 4, 8, 16, 32}个训练幻灯片,使用相同训练幻灯片中的注释ROI创建原型,评估包括top-5平均池化和top-50平均池化。
- 我们注意到考虑每类别原型的top-5和top-50补丁的平均分数时性能变化不大。
- 为了与使用所有带有ROI注释的训练幻灯片的性能进行比较,我们还通过每类平均所有训练ROI特征表示来评估MI-SimpleShot,结果详细记录在补充表70和71中。
- 为了创建相似性热图,我们可视化了幻灯片中所有补丁与真实类别原型之间的归一化欧几里得距离。
Evaluation metrics
评估指标
- 我们报告了分类任务中的平衡准确率、加权F1分数和AUROC。
- 平衡准确率是通过计算每个类别的召回率的未加权平均来得出的,这考虑到了评估集中类别的不平衡。
- 加权F1分数是通过对每个类别的F1分数(精确率和召回率的调和平均)按各自支持集的大小进行加权平均来计算。
- AUROC是根据不同的分类阈值绘制真正例率与假正例率曲线下的面积。
- 此外,我们还计算了二次加权Cohen’s κ(例如,在两个标签集之间的注释者间的一致性,如实际标签和预测),我们对ISUP分级(PANDA)进行了这项计算。
- 对于OT-43和OT-108,我们还计算了K ∈ {1, 3, 5}时的前K准确率(对于给定的测试样本,如果实际标签位于预测的前K个标签之中,则认为该样本被正确评分)。
- 对于检索任务,我们考虑了K ∈ {1, 3, 5}时的Acc@K,这代表了检索与查询相同类别标签图像的标准前K准确率。
- 具体而言,如果在前K个检索出的图像中有至少一张图像与查询具有相同的类别标签,则认为检索成功。
- 我们还报告了MVAcc@5,相比Acc@5,它更严格地要求前5个检索出的图像的多数投票必须与查询属于同一类别,才能认为检索成功。
- 对于分割任务,我们报告了Dice分数(定义与F1分数相同)、精确率和召回率,这些指标是在所有图像和类别上进行宏观平均的
Statistical analysis
统计分析
- 对于所有半监督和全监督实验,我们使用1,000次自助法重复估计模型性能的95%置信区间。
- 为了统计显著性,我们采用两尾配对置换检验与1,000次置换来评估两种模型性能差异。
- 对于所有小样本设置,我们报告的模型性能四分位数值使用箱形图表示(n = 5次运行),须触线延伸至四分位间距1.5倍范围内的数据点。
- 对于ROI级别的小样本分类,对于每种C类、K样本设置,我们随机抽取每类C中的K个训练样本,并进行1,000次重复实验(称为‘集’或‘运行’),并在整个测试集上进行评估。
- 对于幻灯片级别的小样本分类,我们遵循相同的设置,但运行次数限制为5次,因为罕见疾病类别中的支持样本数量较小。
Tasks, datasets and comparisons to leaderboard
任务、数据集以及与排行榜的比较
- 在本节中,我们概述了数据预处理、每类样本数量、训练-验证-测试集划分以及其他每个数据集的详细信息(可能还包括多个任务)。
- 在可能的情况下,我们还增加了对我们成果的背景介绍,并与现有排行榜和其他研究的基线进行了比较。
- 需要注意的是,由于超参数、数据集划分和预提取特征的差异(许多现有的基线可能没有使用特定于组织病理学的预训练编码器),这些比较并不总是等价的。
- 在与排行榜进行对比以及进行比较时,我们采用了公共评估中使用的指标,并在表格标题中进一步详细说明了这些指标。
OncoTree cancer classification based on in-house BWH data (43 cancer types, 108 OncoTree codes)
基于本院BWH数据的OncoTree癌症分类(包含43种癌症类型,108个OncoTree编码)
- 如主文中所述,OncoTree癌症分类是一项大规模的层次化分类任务,该任务遵循OncoTree(OT)癌症分类系统。
- 该任务旨在评估预训练模型在分类多种疾病类别和组织类型方面的泛化能力。
- 利用我们自己的BWH幻灯片,我们定义了一个数据集,包含来自43种癌症类型的5,564张全滑动切片图像(WSI),进一步细分为108个OncoTree代码,每个OncoTree代码至少有20张WSI。
- 该数据集构成了两个任务的基础,这两个任务在诊断难度上有所不同:43类癌症类型分类(OT-43)和108类OncoTree代码分类(OT-108)。
- 由于OT-108中的几个OncoTree代码的支持大小较小,所有ABMIL模型均采用训练-测试折叠方式进行训练,并且没有使用早期停止。
- 为了进行训练和评估,我们将数据集大约按标签进行了分层,分为71:29的训练-测试折叠(比例为3,944:1,620张幻灯片),OT-43和OT-108使用相同的折叠,每种OncoTree代码在测试集中使用15张幻灯片,在训练集中每种OncoTree代码至少使用5张幻灯片。
- 粗粒度和细粒度任务的层次化分类报告见补充表4。
- 除了膀胱尿路上皮癌(BLCA)、浸润性导管癌(IDC)、浸润性小叶癌(ILC)、结肠腺癌(COAD)、直肠腺癌(READ)、子宫内膜样癌(UEC)、胃腺癌(STAD)、头颈部鳞状细胞癌(HNSC)、未另作规定的弥漫大B细胞淋巴瘤(DLBCLNOS)、黑色素瘤(MEL)、LUAD、LUSC、胰腺腺癌(PAAD)、前列腺腺癌(PRAD)、皮肤鳞状细胞癌(CSCC)、小细胞肺癌(SCLC)、胃食管结合部腺癌(GEJ)和慢性淋巴细胞性白血病/小淋巴细胞性淋巴瘤(CLLSLL),这项任务中的癌症类型是由RARECARE项目和国家癌症研究所的监测、流行病学和最终结果(NCI-SEER)计划指定的罕见癌症。
- 我们注意到,OT-43和OT-108训练折叠中的幻灯片被纳入了OP-1K和OP-22K预训练中,而测试集则从这些预训练源中保留出来(遵循ImageNet的做法)
- 由于在所有预训练模型(包括中间检查点)中反复提取所有非重叠组织切片的特征存在存储限制,我们为每个WSI抽取了200个代表性切片进行特征提取。
- 为了选择这些切片,我们首先提取了ResNet-50IN特征,然后进行了聚类,这种方法在其他工作中也有使用,例如WSISA、DeepAttnMISL等。
- 我们注意到这些工作受到了视觉词袋(vBOW)的启发,该方法已被适应于病理学领域,通过将高分辨率的ROI和WSI聚类为较小但具有代表性的组织切片集合。
- 对于所有预训练编码器,我们都从相同的抽样切片集合中提取特征。
- 尽管为了获得这些抽样切片采取了额外的计算步骤,但我们注意到这并不属于传导性推理,因为整个测试集(所有WSI样本)从未被任何学习组件所见(聚类是针对每个WSI进行的,其中"样本"是在玻片级别而非切片级别定义的)。
- 为了验证这种方法使用所有组织切片的特征具有可比性能,我们将抽样特征与UNI、CTransPath、REMEDIS以及ResNet-50IN的全部特征的性能进行了比较,这些结果我们也报告在补充表12和15中。
- 我们观察到使用抽样特征时性能下降很小(最高下降-0.9%的top-1准确率,AUROC下降-0.007),并且许多模型的性能有所提高。
- 对于REMEDIS,我们观察到当使用全部特征时ABMIL模型的性能崩溃,在OT-43和OT-108上的top-1准确率分别为4.0%和11.8%(而使用抽样特征时分别为59.3%和41.2%)。
- 我们推测这些性能提升是由于OT-43和OT-108的难度较大,切片抽样减少了ABMIL输入数据的复杂性(例如,不是在一个包含10,000多个切片的包中寻找诊断相关的特征,而是只考虑200个代表性切片)。
Breast metastasis detection based on CAMELYON16 (2 classes)
基于CAMELYON16的乳腺转移检测(2类)
- 2016年淋巴结癌症转移挑战赛(CAMELYON16)中的乳腺转移检测任务包括来自Radboud大学医学中心和乌得勒支大学医学中心的400张哨兵淋巴结H&E FFPE组织病理学全切片图像,用于转移检测。
- 我们从测试集中移除了一张标记错误的切片,最终得到399张切片(239张正常,160张转移)。
- 为了训练和评估,我们使用了官方提供的训练-测试划分,并将训练集按标签分层为90:10的训练-验证比例,从而得到61:7:32的训练-验证-测试比例(243:27:129张切片)。
- 除了内部比较外,我们还与挑战赛期间排行榜上的结果进行了对比,提供了最近同行评审文献中报告的最佳模型的时间线,并在补充表36中增加了对尖端方法比较的背景信息。
- 我们注意到,与UNI的比较可能并不等同,许多提出的方法使用了ResNet-50IN特征,同时采用了更为复杂的MIL架构。
NSCLC subtyping based on TCGA and CPTAC (LUAD versus LUSC, 2 classes)
基于TCGA和CPTAC的NSCLC亚型分类(LUAD与LUSC,2类)
- NSCLC亚型分类任务包括来源于TCGA和CPTAC的NSCLC H&E FFPE诊断组织病理学全扫描图像,用于分类两种亚型:主要LUAD和LUSC病例。
- 为了质量控制,在TCGA中,我们排除了缺少元数据或元数据不正确的幻灯片,最终得到1,041张幻灯片(529例LUAD和512例LUSC)。
- 在CPTAC中,我们排除了冷冻组织、非肿瘤组织或未标记为可接受肿瘤段的幻灯片,最终得到1,091张幻灯片(578例LUAD和513例LUSC)。
- 为了训练和评估,我们将TCGA-NSCLC队列按标签分层为80:10:10的训练-验证-测试集(848:97:98张幻灯片),并使用保留的CPTAC队列进行外部评估。
RCC subtyping based on DHMC (CCRCC versus PRCC versus CHRCC versus ROCY versus Benign, 5 classes)
基于DHMC的RCC亚型分类(CCRCC与PRCC与CHRCC与ROCY与良性,共5类)
- RCC亚型分类任务包括来自达特茅斯-希区柯克医学中心(DHMC)的563张RCC H&E FFPE诊断组织病理学全切片图像(485张切除样本和78张活检样本),用于分类五种亚型:主要透明细胞肾细胞癌(CCRCC,344张切片),乳头状肾细胞癌(PRCC,101张切片)和嫌色细胞肾细胞癌(CHRCC,23张切片),肾源性肿瘤(ROCY,66张切片)以及良性病例(29张切片)。
- 为了训练和评估这两个任务,我们使用了修改后的训练-验证-测试集配置比例为70:4:26(393:23:147张切片),由于训练集中没有CHRCC样本,我们将八个CHRCC病例从测试集移到了训练集中。
RCC subtyping based on TCGA, DHMC and CPTAC (CCRCC versus PRCC versus CHRCC, 3 classes)
基于TCGA、DHMC和CPTAC的RCC亚型分类(CCRCC与PRCC与CHRCC,共三类)
- RCC亚型分类任务包含了来自TCGA、DHMC和CPTAC的1,794份RCC的H&E FFPE诊断组织病理学WSI,用于分类三种亚型:主要CCRCC、PRCC和CHRCC。
- 为了质量控制,在TCGA中我们排除了缺少低分辨率下采样的幻灯片,这导致共有922张幻灯片(519例CCRCC、294例PRCC和109例CHRCC)。
- 在DHMC数据集中,我们过滤掉了之前描述的DHMC-Kidney队列中的肾上皮细胞瘤,这导致共有468张幻灯片(344例CCRCC、101例PRCC和23例CHRCC)。
- 在CPTAC中,我们排除了冷冻组织、非肿瘤组织或未标记为可接受肿瘤片段的幻灯片,这导致共有404张幻灯片(404例CCRCC)。
- 为了训练和评估,我们将TCGA-NSCLC队列按标签分层为80:10:10的训练-验证-测试集(736:89:97张幻灯片),并在保留的DHMC和CPTAC队列上进行外部评估。
- 鉴于CPTAC仅包含CCRCC病例,我们将DHMC和CPTAC合并为一个单一的评估队列。
CRC screening based on HunCRC (4 classes)
基于HunCRC的CRC筛查(4类)
- CRC筛查任务包含来自Semmelweis大学的匈牙利CRC筛查(HunCRC)数据集中的200张结直肠活检的H&E FFPE诊断组织病理学全扫描图像。
- 在这个数据集中,我们定义了一个四分类粗粒度子类型任务,使用了阴性(10张切片)、非肿瘤病变(38张切片)、CRC(46张切片)和腺瘤(106张切片)这几类,其中真实标签由研究中的病理学家确定。
- 为了训练和评估,我们将HunCRC切片数据集按标签分层,划分为50:25:25的训练-验证-测试集(158:21:21张切片)。
BRCA coarse- and fine-grained subtyping based on BRACS (3 and 7 classes)
基于BRACS的BRCA粗粒度和细粒度亚型分类(3类和7类)
- BRCA 粗粒度和细粒度亚型任务包含来自 187 名患者的 547 张乳腺癌组织切片,这些切片来源于 Breast Carcinoma Subtyping (BRCA) 任务,该任务的数据来自 IRCCS 帕斯卡尔基金会、国家研究委员会 (CNR) 的高性能计算与网络研究所 (ICAR) 和 IBM 研究院-苏黎世。
- 在这个数据集中,我们定义了一个三分类粗粒度亚型任务,使用了‘良性肿瘤’、‘非典型肿瘤’和‘恶性肿瘤’标签。
- 此外,我们定义了一个七分类细粒度亚型任务,将良性肿瘤细分为‘正常’、‘病理学良性’、‘通常导管增生’,将非典型肿瘤细分为‘扁平上皮非典型性’和‘非典型导管增生’,将恶性肿瘤细分为‘导管原位癌’和‘浸润性癌’。
- 粗粒度和细粒度任务的层次分类报告见补充表 19。
- 为了训练和评估这两个任务,我们使用官方的训练-验证-测试数据集划分,比例为 72:12:16(395:65:87 张切片),对于粗粒度和细粒度任务均使用相同的划分。
Glioma IDH1 mutation prediction and histomolecular subtyping based on TCGA and EBRAINS (2 and 5 classes)
基于TCGA和EBRAINS的胶质瘤IDH1突变预测及组织分子亚型分类(二分类和五分类)
- 胶质瘤IDH1突变预测和组织分子亚型分类任务包括来自胶质母细胞瘤、星形细胞瘤和少突胶质细胞瘤病例的1,996张H&E FFPE诊断组织病理学WSI图像,这些病例的分子状态来自TCGA和EBRAINS数字肿瘤图谱。
- 我们首先定义了一个五类胶质瘤组织分子亚型分类任务,包括以下标签:IDH1突变星形细胞瘤(257张切片),IDH1突变胶质母细胞瘤(93张切片),IDH1突变且1p/19q共缺失的少突胶质细胞瘤(408张切片),IDH1野生型胶质母细胞瘤(1,094张切片),以及IDH1野生型星形细胞瘤(144张切片)。
- 此外,我们定义了一个更简单的二分类任务,仅预测IDH1状态:IDH1野生型(1,238张切片)和IDH1突变(756张切片)。
- 这些任务中的所有脑肿瘤都被RARECARE项目和NCI-SEER计划指定为罕见癌症。
- 粗粒度和细粒度任务的层次分类报告见补充表21。
- 对于这两个任务的训练和评估,我们将TCGA-GBMLGG(TCGA胶质母细胞瘤低级别胶质瘤)数据集大致按标签分层划分成训练-验证-测试集,比例为47:22:31(525:243:355张切片),使用保留的EBRAINS队列(873张切片)进行外部评估,并且粗粒度和细粒度任务使用相同的划分。
Brain tumor coarse- and fine-grained subtyping based on EBRAINS (12 and 30 classes)
基于EBRAINS的脑肿瘤粗粒度和细粒度亚型分类(12类和30类)
- 脑肿瘤粗粒度和细粒度亚型分类任务包含来自维也纳大学的2,319张EBRAINS数字肿瘤图谱中的H&E FFPE诊断组织病理学全扫描图像。
- 原始数据集包含3,114张切片,我们定义了一个30类细粒度脑肿瘤亚型分类任务,仅限于至少有30张切片的诊断标签:IDH1野生型胶质母细胞瘤(474张切片)、毛细胞星形细胞瘤(173张切片)、脑膜上皮型脑膜瘤(104张切片)、垂体腺瘤(99张切片)、IDH1突变型且1p/19q共缺失的恶性寡树突胶质瘤(91张切片)、神经节胶质瘤(88张切片)、血管母细胞瘤(88张切片)、牙釉质样颅咽管瘤(85张切片)、IDH1突变型且1p/19q共缺失的寡树突胶质瘤(85张切片)、非典型脑膜瘤(83张切片)、神经鞘瘤(81张切片)、IDH1突变型弥漫性星形细胞瘤(70张切片)、过渡型脑膜瘤(68张切片)、中枢神经系统弥漫性大B细胞淋巴瘤(59张切片)、胶质肉瘤(59张切片)、纤维型脑膜瘤(57张切片)、恶性室管膜瘤(50张切片)、IDH1野生型恶性星形细胞瘤(47张切片)、转移性肿瘤(47张切片)、DH1突变型恶性星形细胞瘤(47张切片)、室管膜瘤(46张切片)、恶性脑膜瘤(46张切片)、分泌型脑膜瘤(41张切片)、脂肪瘤(38张切片)、血管周细胞瘤(34张切片)、IDH1突变型胶质母细胞瘤(34张切片)、非WNT/非SHH型髓母细胞瘤(32张切片)、朗格汉斯细胞组织细胞增生症(32张切片)、血管型脑膜瘤(31张切片)以及血管瘤(30张切片)。
- 从这2,319张切片数据集中,我们同样定义了一个12类粗粒度脑肿瘤亚型分类任务,将上述标签归类为以下类别:成人型弥漫性胶质瘤(837张切片)、脑膜瘤(430张切片)、中枢神经系统非脑膜上皮间充质肿瘤(190张切片)、鞍区肿瘤(184张切片)、局限性星形细胞胶质瘤(173张切片)、室管膜肿瘤(96张切片)、中枢神经系统血液淋巴肿瘤(91张切片)、神经元和神经胶质神经元肿瘤(88张切片)、颅神经和副脊神经肿瘤(81张切片)、儿童型弥漫性低级别胶质瘤(70张切片)、转移性肿瘤(47张切片)以及胚胎型肿瘤(32张切片)。
- 这些任务中的所有脑肿瘤均被RARECARE项目和NCI-SEER计划指定为罕见癌症。
- 粗粒度和细粒度任务的层次分类报告见补充表20。
- 为了训练和评估这两个任务,我们将数据集大约按标签分层划分为训练-验证-测试集,比例为50:25:25(1,151:595:573张切片),对于粗粒度和细粒度任务使用相同的划分。
Prostate ISUP grading based on PANDA (6 classes)
基于PANDA的前列腺ISUP分级(6个等级)
- ISUP分级任务源自PANDA挑战赛,该挑战赛包含来自Radboud大学医学中心和卡罗林斯卡研究所的10,616份前列腺癌穿刺活检样本。
- 每张幻灯片都被分配了一个ISUP评分,用于定义前列腺癌的分级(6级分级任务)。
- 为了质量控制,我们遵循先前的工作,排除了错误标注的幻灯片(https://www.kaggle.com/competitions/prostate-cancer-grade-assessment/discussion/169230)或标签噪声较大的幻灯片(https://www.kaggle.com/competitions/prostate-cancer-grade-assessment/discussion/169230),最终保留了9,555张幻灯片(2,603张G0,2,399张G1,1,209张G2,1,118张G3,1,124张G4,1,102张G5)。
- 为了训练和评估,我们将PANDA按标签分层为80:10:10的训练-验证-测试集(7,647:954:954张幻灯片)。
- 除了内部比较之外,我们还使用与最近工作相同的公共多重实例学习基线划分重新评估了我们的结果。
- 在与公共基线评估时,我们采用了WholeSIGHT中也分别评估Karolinska和Radboud队列的评估策略。
- 补充表30报告了UNI及其与公共划分进行的内部比较的表现。
- 补充表37报告了我们与公共多重实例学习基线对比的结果。
- 此外,在这项任务中我们也提到了与CAMELYON描述中的相同保留意见,即由于使用ResNet-50IN特征,与公共多重实例学习表现的比较可能并不等价,但需要注意的是这些基线也采用了更为复杂的多重实例学习架构。
Endomyocardial assessment based on in-house BWH data (2 classes)
基于本院BWH数据的心内膜评估(2类)
- BWH-EMB 数据集包含来自 BWH 的 1,688 例内部心内膜活检(EMB)的 5,021 张 H&E FFPE 组织病理学全滑片(WSI),用于细胞介导的同种异体移植物排斥反应(ACR)的研究(2,444 例 ACR,2,577 例其他病例)。
- 为了训练和评估,我们将数据集按案例和标签分层划分为训练-验证-测试集(3,547:484:900 张幻灯片,1,192:164:332 名患者),并在患者层面进行评估。
- 除了内部比较之外,我们还与 CRANE 的结果进行了比较(它们使用相同的划分)(扩展数据图 8)。
- 我们还注意到在这项任务中的 CAMELYON 描述中存在的同样警告,即与 UNI 的比较可能不等价,因为 CRANE 使用了 ResNet-50IN 特征,但需指出的是,这一基准也使用了多任务学习与其他临床终点来评估 EMB。
CRC tissue classification based on CRC-100K (9 classes)
基于CRC-100K的结直肠癌组织分类(9类)
- CRC组织分类任务基于CRC-100K数据集,该数据集包含136个来自国家肿瘤疾病中心(NCT)生物样本库和曼海姆大学医学中心(UMM)病理档案中的结直肠腺癌样本的107,180个224×224像素的感兴趣区域(ROIs),分辨率为0.5微米每像素。
- 这些ROIs被标记为以下9类:脂肪(11,745个ROIs)、背景(11,413个ROIs)、细胞碎片(11,851个ROIs)、淋巴细胞(12,191个ROIs)、黏液(9,931个ROIs)、平滑肌(14,128个ROIs)、正常结肠黏膜(9,504个ROIs)、与癌症相关的间质(10,867个ROIs)和结直肠腺癌上皮(15,550个ROIs)。
- 我们使用官方的病例分层训练-测试集(100,000:7,180个ROIs)进行训练和评估,其中训练集由NCT生物样本库和UMM病理档案中的100,000个ROIs(86个全滑片图像WSIs)构成(称为‘NCT-CRC-HE-100K’),而测试集由NCT生物样本库中的7,180个ROIs(50个WSIs)构成(称为‘CRC-VAL-HE-7K’)。
- 此外,我们还使用了未经染色标准化处理的NCT-CRC-HE-100K版本。
- 我们对线性探针、K近邻算法(KNN)和SimpleShot评估使用相同的训练集和测试集。
- 我们在0.5微米每像素分辨率下,对224×224像素的ROIs上的这个数据集进行了评估。
Breast metastasis detection based on CAMELYON17-WILDS (2 classes)
基于CAMELYON17-WILDS的乳腺转移检测(2类)
- 乳腺转移检测任务基于CAMELYON17数据集的基于图像块的变体(称为PatchCAMELYON或‘PCAM’),该数据集由WILDS创建用于测试模型在分布变化下的鲁棒性。
- 该数据集包含417,894个96×96像素的组织病理学感兴趣区域(ROIs),放大率约为0.92至1.00微米/像素,这些区域从淋巴结中的乳腺癌转移全滑片图像(WSIs)中提取,来源于CAMELYON17挑战赛。
- ROI标签表示该图像块是否包含肿瘤。
- 我们使用了WILDS提供的官方训练-验证-测试划分来进行训练和评估。
- 训练集包含来自三家医院的302,436个图像块,模型在两个不同分布的数据集上进行评估,这两个数据集分别包含34,904个图像块(ValOD)和80,554个图像块(TestOD),这些图像块来自另外两家医院。
- 为了与CTransPath进行等效比较,我们将所有图像双线性上采样到224×224像素。
- 除了内部比较之外,我们还与WILDS基准测试的公共排行榜上的结果进行了比较(https://wilds.stanford.edu/leaderboard/),我们在补充表62中报告了这些结果。
- 域内验证划分没有与训练集合并,也没有用于超参数调整。
- 我们注意到,与公开结果的比较可能与我们的评估不完全等同,因为许多方法是通过自然图像的迁移学习端到端微调的(而不是来自病理图像)
CRC tissue classification based on HunCRC (9 classes)
基于HunCRC的CRC组织分类(9个类别)
- CRC组织分类任务基于HunCRC数据集,该数据集包含101,398个从结直肠活检诊断组织病理学WSI中注释和提取的512×512像素的ROI,分辨率0.48 mpp,这些WSI也在滑动级别任务中有所描述。
- 这些ROI被分为以下九类:腺癌(4,315个ROI)、高度异型增生(2,281个ROI)、低度异型增生(55,787个ROI)、炎症(763个ROI)、肿瘤坏死(365个ROI)、疑似侵袭(570个ROI)、切除边缘(534个ROI)、技术性伪影(3,470个ROI)以及正常组织(31,323个ROI)。
- 为了训练和评估,我们将数据集按病例分层,并大致按标签分层,分为训练-测试集(151:49个样本,76,753:22,655个ROI),用于线性探针、KNN和SimpleShot评估。
- 我们在这个数据集上对调整大小至448×448像素的ROI进行了评估,分辨率设为0.55 mpp。
BRCA subtyping based on BACH (4 classes)
基于BACH的BRCA亚型分类(4类)
- BRCA亚型分类任务基于乳腺癌亚型分类(BACH)数据集,该数据集包含400个2048×1536像素的感兴趣区域(ROIs),这些区域以每毫米0.42像素(mpp)的分辨率从国际图像分析与识别会议(ICIAR)2018年乳腺癌组织学图像大赛中的H&E固定的组织病理学全滑片图像(WSIs)中注释并提取。
- 这些ROIs被分为以下四类:正常(100个ROIs)、良性(100个ROIs)、原位癌(100个ROIs)和浸润性癌(100个ROIs)。
- 为了训练和评估,我们将数据集按标签分层划分为训练-测试集(320:80个ROIs),用于线性探针、K近邻(KNN)和SimpleShot评估。
- 此外,我们在以下中心裁剪和调整大小的图像分辨率上评估了该数据集:224×224像素时每毫米2.88像素,448×448像素时每毫米1.44像素,896×896像素时每毫米0.72像素,以及1344×1344像素时每毫米0.48像素。
CCRCC tissue classification based on TCGA and HEL (3 classes)
基于TCGA和HEL的CCRCC组织分类(3类)
- CCRCC组织分类任务包含52,713个256×256像素和300×300像素的感兴趣区域(ROIs),大约每毫米0.25的分辨率,这些区域从TCGA中的502个样本和赫尔辛基大学医院(HEL)的64个样本的CCRCC诊断组织病理学全滑片图像(WSIs)中标注并提取。
- 这些ROI被标记为以下六类:癌症(13,057个ROI)、正常(8,652个ROI)、间质(5,460个ROI)、红细胞(996个ROI)、空背景(16,026个ROI)和其他纹理(8,522个ROI)。
- 对于这项任务,我们仅考虑了癌症、正常和间质标签,这是因为按数据源分层时存在标签不平衡问题,以及‘其他’类别中的模糊性。
- 我们使用来自TCGA的ROI(21,095个ROI)和HEL的ROI(6,074个ROI)作为训练队列和测试队列(训练-测试折分比例为21,095:6,074),用于线性探针、KNN和SimpleShot评估。
- 我们在大约每毫米0.29的分辨率下,对调整大小后的224×224像素的ROI进行该数据集的评估。
PRAD tissue classification based on AGGC (5 classes)
基于AGGC的PRAD组织分类(5个类别)
- 前列腺腺癌(PRAD)组织分类任务基于2022年新加坡国立大学医院与新加坡科技研究局(A*STAR)合作举办的自动Gleason分级挑战赛(AGGC)。
- 该任务包含203个来自根治性前列腺切除术(105个用于训练,45个用于测试)和活检(37个用于训练,16个用于测试)的全滑片图像(WSI),使用Akoya Biosciences扫描仪以20倍放大率和0.5微米/像素(mpp)分辨率进行数字化。
- 每张幻灯片包括部分像素级注释,用以界定不同的Gleason模式和间质区域。
- 从原始的WSI和注释中,我们构建了一个包含1,125,640个不重叠的256×256像素大小的感兴趣区域(ROI)的数据集(训练-测试集比例为780,619:345,021),用于线性探针、K近邻(KNN)和SimpleShot评估。
- 具有多个Gleason模式的ROI被分配了最严重的等级。
- 我们在约0.57 mpp的分辨率下对调整大小后的224×224像素的ROI进行了该数据集上的评估。
ESCA tissue classification based on UKK, WNS, TCGA and CHA (11 classes)
基于UKK、WNS、TCGA和CHA的ESCA组织分类(11个类别)
- 食管癌(ESCA)组织分类任务包含来自四个来源的320张食管腺癌和食管胃交界处腺癌的H&E染色FFPE诊断组织病理学全切片图像中的367,229个256×256像素的感兴趣区域(ROI),分辨率为0.78微米/像素。这些来源包括科隆大学医院(UKK,22张切片)、维也纳新城地区医院(WNS,62张切片)、癌症基因组图谱(TCGA,22张切片)以及柏林夏里特大学医院(CHA,214张切片)。
- 这些ROI被标记为以下11类:外膜(71,131个ROI)、黏膜下层(2,173个ROI)、黏膜肌层(2,951个ROI)、固有肌层(83,358个ROI)、退变组织(56,490个ROI)、胃黏膜(44,416个ROI)、食管黏膜(18,561个ROI)、黏膜下层(22,117个ROI)、黏膜下腺体(1,516个ROI)、肿瘤(63,863个ROI)以及溃疡(753个ROI)。
- 为了训练和评估,我们将UKK、WNS和TCGA合并为一个训练队列(189,142个ROI),并将CHA用作测试队列(178,187个ROI),训练-测试比例为51:49。我们随后使用这一数据集进行线性探针、K近邻(KNN)及SimpleShot评估。
- 我们在大约0.89微米/像素分辨率下的224×224像素重采样ROI上对这个数据集进行了评估。
CRC polyp classification based on UniToPatho (6 classes)
基于UniToPatho的CRC息肉分类(6类)
- CRC息肉分类任务基于UniToPatho数据集,该数据集包含9,536个1,812×1,812像素的感兴趣区域(ROIs),分辨率0.44微米/像素,这些区域是从都灵大学提供的292张结直肠息肉样本的苏木精和伊红染色(H&E)固定组织切片(FFPE)诊断病理学全滑动扫描图像(WSIs)中标注并提取出来的。
- 这些感兴趣区域被标记为以下六类:正常(950个ROI)、增生性息肉(545个ROI)、高度异型的管状腺瘤(454个ROI)、低度异型的管状腺瘤(3,618个ROI)、高度异型的管状绒毛状腺瘤(916个ROI)以及低度异型的管状绒毛状腺瘤(2,186个ROI)。
- 我们使用官方提供的训练-测试数据集划分(6,270个:2,399个ROI)进行训练和评估。
- 我们对不同尺寸的图像分辨率进行了评估:224×224像素,分辨率为3.60微米/像素;448×448像素,分辨率为1.80微米/像素;896×896像素,分辨率为0.90微米/像素;以及1,792×1,792像素,分辨率为0.45微米/像素。
CRC MSI screening based on TCGA CRC-MSI (2 classes)
基于TCGA CRC-MSI的CRC MSI筛查(2类)
- CRC微卫星不稳定性(MSI)预测任务基于TCGA的CRC-MSI数据集,该数据集包含51,918个512×512像素的感兴趣区域(ROI),大约为0.5微米每像素(mpp),这些区域是从结直肠腺癌样本的H&E固定组织病理学全滑切片(WSI)中提取,并从TCGA标注和提取,同时使用Macenko标准化进行了预标准化。
- 根据样本的患者级别标签,这些ROI被标记为以下两类:微卫星不稳定(15,002个ROI)和微卫星稳定(36,916个ROI)。
- 在直线探针、K近邻算法(KNN)和SimpleShot评估中,我们使用了官方的训练-测试折叠(19,557:32,361个ROI)。
- 我们在调整大小后的448×448像素、0.57微米每像素(mpp)的ROI上评估这个数据集。
Pan-cancer tissue classification based on TCGA Uniform Tumor (32 classes)
基于TCGA统一肿瘤数据集的全癌种组织分类(32个类别)
- 泛癌组织分类任务基于TCGA统一肿瘤数据集,该数据集包含来自TCGA68中的8,736个H&E FFPE诊断病理学全滑动扫描图像的271,170个256×256像素的感兴趣区域(ROIs),分辨率约为0.5微米每像素,涵盖了32种癌症类型。
- 这些图像被标记为以下32类:肾上腺皮质癌(ACC)(4,980个ROIs)、膀胱尿路上皮癌(BLCA)(9,990个ROIs)、脑低级别胶质瘤(LGG)(23,530个ROIs)、乳腺癌(BRCA)(23,690个ROIs)、宫颈鳞状细胞癌和子宫颈腺癌(CESC)(6,270个ROIs)、胆管癌(CHOL)(900个ROIs)、结肠癌(COAD)(8,150个ROIs)、食道癌(ESCA)(3,380个ROIs)、多形性胶质母细胞瘤(GBM)(23,740个ROIs)、头颈鳞状细胞癌(HNSC)(11,790个ROIs)、肾透明细胞癌(KICH)(2,460个ROIs)、肾肾透明细胞癌(KIRC)(11,650个ROIs)、肾肾乳头状细胞癌(KIRP)(6,790个ROIs)、肝细胞癌(LIHC)(8,370个ROIs)、肺腺癌(LUAD)(16,460个ROIs)、肺鳞状细胞癌(LUSC)(16,560个ROIs)、弥漫大B细胞淋巴瘤(DLBC)(840个ROIs)、间皮瘤(MESO)(2,090个ROIs)、卵巢浆液性囊腺癌(OV)(2,520个ROIs)、胰腺癌(PAAD)(4,090个ROIs)、嗜铬细胞瘤和副神经节瘤(PCPG)(1,350个ROIs)、前列腺腺癌(PRAD)(9,810个ROIs)、直肠癌(READ)(1,880个ROIs)、肉瘤(SARC)(13,480个ROIs)、皮肤黑色素瘤(SKCM)(10,060个ROIs)、胃腺癌(STAD)(9,670个ROIs)、睾丸生殖细胞瘤(TGCT)(6,010个ROIs)、胸腺瘤(THYM)(3,600个ROIs)、甲状腺癌(THCA)(11,360个ROIs)、子宫癌肉瘤(UCS)(2,120个ROIs)、子宫内膜样癌(UCEC)(12,480个ROIs)以及葡萄膜黑色素瘤(UVM)(1,640个ROIs)。
- 除了BLCA、BRCA、COAD、HNSC、LUAD、LUSC、PAAD、PRAD、READ、SKCM、STAD、THCA和UCEC之外,在这项任务中所有其他癌症类型都被RARECARE项目和NCI-SEER计划指定为罕见癌症。
- 为了训练和评估,我们将数据集按病例分层并大致按标签分层为训练-测试折叠(216,350:55,360个ROIs),用于线性探针、K近邻算法(KNN)和SimpleShot评估。
- 我们在这个数据集上使用大约0.57微米每像素分辨率下调整大小为224×224像素的ROIs进行评估。
- 为了减轻TCGA168中特定站点H&E染色变异可能带来的偏见,我们使用Macenko归一化方法对所有ROIs进行了归一化处理。
Pan-cancer TIL detection based on TCGA-TILS (2 classes)
基于TCGA-TILS的泛癌种TIL检测(两类)
- 肿瘤免疫淋巴细胞(TIL)检测任务基于TCGA-TILs数据集,该数据集包含304,097个约0.5微米每像素(mpp)的100×100像素组织病理学感兴趣区域(ROIs),这些ROIs从TCGA中的H&E固定组织切片(FFPE)诊断组织病理学全滑片图像(WSIs)中标注和提取而来。
- ROIs被分为两类:TIL阳性(如果图像中有至少两个TIL存在,共54,910个ROIs)和TIL阴性(249,187个ROIs)。
- 为了训练和评估,我们使用了官方提供的训练-验证-测试划分(209,221:38,601:56,275个ROIs),并将训练和验证集合并为单一的训练集。
- 我们将所有图像双线性上采样至224×224像素,在0.20 mpp下进行处理,以便与CTransPath进行等效比较。
- 为了减轻TCGA中特定站点H&E染色变异可能带来的偏差,我们使用Macenko标准化对所有ROIs进行了标准化处理。
- 除了内部比较外,我们也与ChampKit排行榜上的结果进行了比较,相关结果报告在补充表61中。
- 值得注意的是,与公开结果的比较可能并不等同于我们的评估,因为许多方法都是通过从自然图像转移学习的方式端到端微调的(而非来自病理图像)
Pan-cancer cell type segmentation based on SegPath (8 cell types treated as individual tasks)
基于SegPath的泛癌症细胞类型分割(8种细胞类型被视为单独的任务)
- 细胞类型分割任务来源于SegPath数据集,该数据集包含158,687个984×984像素的ROI,分辨率为0.22微米/像素,这些ROI从东京大学医院的八种主要癌症组织细胞类型的H&E FFPE诊断组织病理学全扫描图像中注释并提取。
- 对ROI进行了免疫荧光和DAPI核染色,并用作以下类别的图像掩模:内皮(10,647个ROI),上皮(26,509个ROI),白细胞(24,805个ROI),淋巴细胞(12,273个ROI),髓系细胞(14,135个ROI),浆细胞(13,231个ROI),红细胞(25,909个ROI)以及平滑肌(31,178个ROI)。
- 数据集中的每种细胞类型形成一个独立的组织分割任务,包含两类:组织/细胞区域和非组织/细胞区域。
- 我们使用官方提供的训练-验证-测试划分进行训练和评估,比例大约为80:10:10。
- 此外,我们利用该数据集的公开评估来比较我们的结果,这些结果也在补充表中报告。
- 值得注意的是,官方数据集中并未公开单个模型的表现,因此我们对每种细胞类型表现最佳的模型性能界限进行了插值估算。
Computing hardware and software
计算硬件和软件
- 我们使用 Python(v3.8.13)和 PyTorch(v2.0.0,CUDA 11.7)(https://pytorch.org)进行研究中的所有实验和分析(除非另有说明),可以使用下面概述的开源库来复现。
- 为了通过 DINOv2 训练 UNI,我们修改了由 Hugging Face(https://huggingface.co)维护的开源 timm 库(v0.9.2)中的视觉变换器实现,用于编码器主干,并使用原始的 DINOv2 自监督学习算法(https://github.com/facebookresearch/dinov2)进行预训练,该预训练使用了配置为多 GPU、多节点训练的分布式数据并行(DDP)的 4 × 8 80 GB NVIDIA A100 GPU(图形处理单元)节点。
- 所有下游实验的其他计算均在单个 24 GB NVIDIA 3090 GPU 上完成。
- 所有 WSI 处理得到了 OpenSlide(v4.3.1)、openslide-python(v1.2.0)和 CLAM(https://github.com/mahmoodlab/CLAM)的支持。
- 我们使用 Scikit-learn(v1.2.1)实现了 K-最近邻算法,以及逻辑回归实现和 SimpleShot 实现,后者由 LGSSL 代码库(https://github.com/mbanani/lgssl)提供。
- 研究中基准测试的其他视觉预训练编码器的实现可在以下链接找到:带有 ImageNet 转移的 ResNet-50(https://github.com/mahmoodlab/CLAM)、CTransPath(https://github.com/Xiyue-Wang/TransPath)和 REMEDIS(https://github.com/google-research/medical-ai-research-foundations)。
- 需要注意的是,使用 REMEDIS 需要履行数据使用协议,该协议可在 PhysioNet 网站(https://physionet.org/content/medical-ai-research-foundation)上访问和提交。
- 对于多头注意力可视化,我们使用了 HIPT 代码库(https://github.com/mahmoodlab/HIPT)提供的可视化工具。
- 对于训练弱监督 ABMIL 模型,我们从 CLAM 代码库(https://github.com/mahmoodlab/CLAM)改编了训练框架代码。
- 对于语义分割训练,我们使用了原始的 Mask2Former 实现(https://github.com/facebookresearch/Mask2Former),它基于 detectron2(版本 174)(v0.6),并需要以下较旧的包以确保兼容性:Python(v3.8)和 PyTorch(v1.9.0,CUDA 11.1)。
- 为了将 ViT-Adapter 添加到 UNI,我们在 detectron2 中改编了其原始实现(https://github.com/czczup/ViT-Adapter),以使用 Mask2Former 进行训练。
- Pillow(v9.3.0)和 OpenCV-python 用于执行基本的图像处理任务。
- Matplotlib(v3.7.1)和 Seaborn(v0.12.2)用于创建图表和图形。
- 其他杂项 Python 库的使用情况在报告摘要中有详细说明。
Reporting summary
报告摘要
- 有关研究设计的更多信息可在与本文链接的 Nature Portfolio 报告摘要中找到。
Data availability
- TCGA 和 CPTAC 数据,包括全片图像和标签,可以通过 NIH 基因组数据共享获取(https://portal.gdc.cancer.gov),而蛋白质组学数据则可通过蛋白质组数据共享获得(https://proteomic.datacommons.cancer.gov)。
- 加入预训练数据集中的 GTEx 数据可通过 GTEx 门户获取(https://www.gtexportal.org/home/)。
- 本工作中分析的所有公开可用的 CPTAC 数据均可在其各自的数据门户中获取:CRC-100K(https://zenodo.org/record/1214456)、HunCRC ROIs(10.6084/m9.figshare.c.5927795.v1)、HunCRC 滑动条(10.7937/tcia.9cjf-0127)、BACH(https://iciar2018-challenge.grand-challenge.org/Dataset/)、TCGA CRC-MSI(https://zenodo.org/record/3832231)、CCRCC 组织分类(https://zenodo.org/record/7898308)、TCGA-TILs(https://zenodo.org/record/6604094)、TCGA Uniform(https://zenodo.org/record/5889558)、UniToPatho(https://zenodo.org/record/4643645)、ESCA(https://zenodo.org/record/7548828)、CAMELYON17-WILDS(https://wilds.stanford.edu/datasets)、EBRAINS(10.25493/WQ48-ZGX)、DHMC(https://bmirds.github.io/KidneyCancer)、BRACS(https://bracs.icar.cnr.it)、PANDA(https://panda.grand-challenge.org)、SegPath(https://zenodo.org/record/7412731)以及 AGGC(https://zenodo.org/record/6460100)。
- TCGA、CPTAC、HunCRC 以及 TCGA-TILS 还可通过癌症影像档案库获取。
- 所有数据集的链接也在补充表 73 中列出。
- 我们注意到 AGGC 数据来源于一项公开的大挑战(同名大挑战(https://aggc22.grand-challenge.org)),该挑战有一篇待发表的文章101,且已获得挑战组织者的许可来展示来自该数据集的结果。
- 本研究未专门收集内部患者数据。
- 本研究依赖于对匿名全片图像的回顾性分析。
- 根据机构政策,所有收集或归档的内部数据的请求将逐案评估,以确定所请求的数据及使用情况是否符合知识产权或患者隐私义务。
Code availability
- 用于学术研究目的的 UNI 的代码和模型权重可从 https://github.com/mahmoodlab/UNI 获取。
- 我们记录了研究中使用的所有技术深度学习方法和软件库,同时确保论文能够被更广泛的临床和科学读者群理解。
本文由mdnice多平台发布
网友评论