Neuron综述：机器学习在大数据影像研究临床转化中的挑战

作者: 悦影科技 | 来源:发表于2023-03-01 22:54 被阅读0次

1.ml_basics
医疗影像数据集
人工智能3
临床基线表与COX回归
协助系统综述和meta分析的21个工具
综述：机器学习在CTR中的应用
论文阅读（37）Small Data Challenges in
机器学习基本概念(一)
机器学习实战
2016年7月31日（week4神经网络1）

深度学习图像分析方法和大规模成像数据集的结合为神经科学成像和流行病学提供了许多机会。然而，尽管深度学习在应用于一系列神经成像任务和领域时取得了这些机会和成功，但大规模数据集和分析工具的影响仍然受到重大障碍的限制。在这里，我们研究了主要的挑战以及已经探索的克服这些挑战的方法。我们将重点讨论与数据可用性、可解释性、评估和后勤挑战相关的问题，并讨论仍然需要解决的问题，以使大数据深度学习方法在研究之外取得成功。

1. 简介

大多数神经成像数据集局限于小规模、低N的集合，通常集中于特定的研究问题或感兴趣的临床人群。然而，广泛被试的大规模大数据收集已经开始被整理，其中许多数据已经公开提供给研究人员。这意味着如果采集方案、人口统计学和非成像数据满足给定研究的要求，新的研究可以在不获取新的扫描的情况下完成。共享这些大规模数据集有很多好处:它们能够探索新的研究问题和可重复的、快速的方法原型。

现有的大规模数据集已经被策划来探索不同的研究问题，在研究中有不同数量的受试者和成像地点。例如，如果研究问题是关于寿命和衰老，要考虑的数据集将包括UK Biobank和CamCAN 。同样，如果考虑早期发展，可用的数据集包括发育中的HCP (dHCP) 和青少年大脑认知发展(ABCD) ;对于年轻人的研究，可以考虑HCP青年。探索特定的临床群体数据集也存在，如阿尔茨海默病(ADNI)、精神分裂症和躁郁症(CANDI)。这些数据集允许探索传统小规模研究无法探索的问题(例如N <100)，这将不足以代表感兴趣的总体内的变化。大规模研究也能够表征患者样本中的潜在亚型，例如，Young等人(2018)使用ADNI数据证明了阿尔茨海默氏症相关萎缩模式的异质性和亚型。

由于这些数据集规模的增长，复杂的深度学习模型最终成为神经成像分析的实际选择，能够以数据驱动的方式探索新问题。深度学习方法具有从数据中学习复杂非线性关系和模式的能力，已被广泛应用，在以前未解决的问题中找到成功。然而，这种成功仅限于特定的任务和数据域。将深度学习模型应用于临床领域仍然存在挑战，目前这限制了英国生物银行(UK Biobank)等大数据集对患者护理的影响。必须开展工作以使模型扩展到研究领域之外。深度学习的最新发展已经开始解决所面临的问题，但还需要进一步的发展。在这里，我们讨论了面临的挑战，目前正在开发的缓解这些挑战的方法，以及仍然存在的障碍，包括数据可用性、解释能力和模型评估的挑战，以及数据隐私等后勤挑战。

2. 深度学习背景

为了理解深度学习方法在临床可译性方面的挑战，我们首先需要简要概述这些方法如何解决问题。我们将只考虑卷积神经网络(CNN)，它构成了目前应用于医学成像的绝大多数深度学习方法，其示例架构如图1所示。大多数是监督方法，这意味着为了探索研究问题，我们需要一个图像数据集X和一组已知的真实标签y，用于所讨论的任务。这需要理解我们期望在图像中编码的信息，以及感兴趣的问题(定义为领域知识)。变量的一个例子可以是带有疾病预后标签的结构脑扫描(X)。然后，任务是设计一个神经网络架构，能够通过学习高度非线性的从X映射到y的映射函数f(X,y;W)，其中W为神经网络的可训练权值。

need-to-insert-img

图1 用于分类或回归任务的卷积神经网络(CNN)的示例网络结构

体系结构的选择在很大程度上受到正在探索的任务、数据量和可用计算能力等因素的影响。然而，大多数网络都是由相同的基本构建块构建的。首先，卷积滤波器，从数据中学习感兴趣的特征(特征提取)。

它们包含了在优化过程中要学习的权重和偏差。这些层的堆栈以不同的空间分辨率放置，以便在每个抽象级别提取一系列不同的特征。这种分层特征提取允许对输入数据的丰富理解。在训练过程的正向传递过程中，每个滤波器都在输入体积的宽度和高度上进行卷积。特征的确切性质是通过网络优化过程来学习的，该过程更新过滤器权重，以找到对预测y的总体目标有用的特征。

接下来是激活函数，它通过对学习的特征应用非线性转换，在模型训练中发挥着基本作用。这种非线性为CNN提供了一个独特的优势，允许它们学习输入和输出之间复杂的非线性关系(或映射)。常用的激活函数包括校正线性单元(ReLUs，例如，将负值归零并保持正值不变)和sigmoid(例如，将大值压缩到预定义的上限，通常在0到1之间)。由于CNN的顺序数据流，给定深度的特征是先前特征和网络参数的非线性组合，其值是在网络训练过程中学习到的。如果没有激活函数，CNN只能训练线性模型。

然后，网络通过包含池化块来学习不同空间分辨率下的特征。池化为旋转和平移提供了基本的不变性，并已被证明可以提高卷积网络的对象检测能力。神经网络的最后一个关键组件是对许多分类或回归架构至关重要的完全连接层，这些架构通常位于网络的末端，并学习如何对提取的特征进行分类。

通过网络输入数据，我们得到一个输出预测。为了使这些数据更准确，网络的权重必须通过“反向传播”来优化。为此，我们评估了一个损失函数或代价函数，它通过比较预测y~和真实标签y来确定网络预测中的错误。损失函数的选择是任务相关的，在网络性能中起着至关重要的作用。

因此，我们有一个优化问题，其性能高度依赖于两个因素:第一，关于网络架构和损失函数的设计决策;第二，可用来训练网络的数据。

几乎所有相关技术都是在计算机视觉领域发展起来的，在计算机视觉领域，非常大的数据集是可用的，而且很容易管理，例如，通过抓取互联网。在神经成像中，数据必须由领域专家标记。这是神经成像和计算机视觉领域的众多区别之一;许多挑战都是针对神经成像数据的工作，特别是当目标是临床应用时。

3. 数据可获得性

对于临床可译性或将深度学习技术应用于临床研究，数据可用性是一个主要限制。尽管可用数据集的规模在增长，但最大的数据集仍然只有数万个数量级，1000张图像通常被视为一个大型数据集。对于许多特定任务，由于各种因素，包括获取数据的金钱和时间成本，跨站点共享和/或汇集数据的困难，以及对于某些情况，患者数量不足，无法创建任何大型数据集，数据集仅存在数百个受试者。例如，经常被探索的脑肿瘤分割(BraTS)数据集只有来自369个可用于训练的对象的数据，与计算机视觉的流行数据集形成鲜明对比，如ImageNet (1,281,167个训练示例)和MNIST (60,000个训练示例)。简单地考虑数据集大小，很明显我们在训练神经网络方面可能动力不足：高度参数化的深度神经网络非常依赖于可用的训练数据量。随着数据点数量的增加，性能通常会提高，与经典的机器学习技术相比，它们更容易受到可用训练数据量的影响。这是因为需要学习有用的特征以及(高度非线性)决策边界，因此需要克服数据缺乏的技术，特别是在临床应用中。

3.1 最大化可获得数据的影响

因此，越来越注重发展技术，以促进更有效地利用现有数据。计算机视觉常用的技术是使用大型自然图像数据集，其中ImageNet是最受欢迎的，用于预训练网络。这包括用更多可用数据训练相关任务的权重，以便优化从一个知情的地方开始，而不是随机初始化。显然，考虑网络在不同阶段学习的信息可能是有用的：早期层学习边缘和简单纹理等特征，很大程度上类似于Gabor滤波器，因此在不同的图像上非常通用和适用，而不管目标任务。最后一层学习的特性更加特定于任务和数据集。因此，我们可以在大型规范数据集上预先训练一个网络，并使用它来提取特征，然后传递给分类器，只需要训练最终的分类器层，或者更常见的是，对更深的层进行微调(重新训练)以完成特定的任务。

这需要更少的数据，因为我们不仅从参数空间中的一个已知点开始优化过程，而且最早的层通常可以被冻结(保持在它们的值，并且在训练期间不更新)，大大减少了模型中需要优化的权重的数量。这个过程被称为迁移学习;这是一个经常使用的步骤，允许网络使用更少量的训练数据进行训练。迁移学习可以跨数据域(数据集)、任务或两者进行，这取决于可用于预训练的数据集，因此可以使我们在感兴趣的临床数据上训练模型，从而直接探索临床研究问题;例如，Peng等人(2021)表明，通过对英国生物银行数据进行训练，然后对目标数据集上的模型进行微调，他们显著提高了年龄预测性能。

3.2 数据扩张

然而，CNN最终仍然需要目标数据域中合理数量的数据(数百或数千个样本)，因为至少必须对一些网络参数进行微调，以优化特定数据集和任务的预测性能。尽管所需的数据量可能会减少，但减少的程度将由代理任务和目标任务之间的相似性决定;所需的数额可能仍然大于现有的数额。在这种情况下，通常应用数据增强，通过应用转换人为地增加训练数据集的大小和多样性，创建数据的轻微扰动版本。从根本上说，数据增强使我们能够人为地创建一个更大的数据集，可以用来训练模型，潜在地实现直接使用临床数据进行探索。

增强(图2)可以采取基本转换的形式，如翻转和旋转，作为计算机视觉任务的标准应用，用于更极端的例子，如Mixup ，它合并来自不同类别的图像以形成混合类，或生成网络，如训练生成模拟数据的条件生成对抗网络(GANs)网络。虽然大多数深度学习研究在训练中应用数据增强，但一些研究专门针对神经成像进行了探索;例如，增强可以通过使用GANs来生成额外的有意义的数据点，或注册到模板来实现，后者生成生物学上合理的数据转换。同样，它们可以通过识别跨站点和扫描仪的合理增强来产生，例如应用偏差场。

图2 可能应用于MRI图像的增强示例

3.3 碎片或切片采样

解决可用训练数据短缺的其他方法侧重于将输入数据分解为补丁或切片(其中数据为3D)，许多研究将MRI数据视为2D输入，其中每个切片都被视为单独的训练样本，例如，Livne等人。这种方法可以极大地增加可用数据的数量，对于有体素级标签的分割任务尤其有效。

然而，分割图像会导致全局信息的丢失;当它们可以实现时，全3D网络在大多数情况下提供了更好的结果。Patch-wise或slice-wise方法不一定适用于分类任务;在为整个图像提供单个标签的情况下，它可能不适用于图像的给定补丁或切片。

3.4 数据集之间的差异或数据域移位

然而，拥有足够的数据来训练模型只是临床应用的第一个困难。

允许深度学习方法学习输入图像和标签之间复杂且高度非线性映射的灵活性是有代价的：深度学习方法容易过度拟合训练数据;如果训练数据量不足，这种情况会加剧。此外，尽管一个训练良好的模型可以很好地内插到与训练期间看到的分布相同的数据，但一旦它必须外推到分布外的数据，性能就会迅速下降。即使是人眼无法察觉的扰动也会导致网络性能崩溃。对于临床可译性，我们需要从训练集推广到所有其他合理的数据集，包括尚未收集的未来数据集;否则，结果可能是域漂移的功能，而不是主体的病理。

多点数据集，如ABIDE研究，当我们跨站点和扫描仪共享数据时，仍然显示非生物方差的增加。图3展示了这种导致分割任务性能下降的差异。

图3 域漂移

3.5 数据组成和算法偏差

最后，我们必须考虑到研究数据的人口统计数据通常不能完全代表整个人口，因此当我们试图从研究领域转移到临床领域时，就会经历领域转移。由于研究数据通常是在脑中对某个研究问题进行有针对性的探索时获得的，因此数据集很少包含有共病或偶然发现的受试者。

例如，由于无法同意等伦理问题，晚期阿尔茨海默病患者不太可能被招募进行一般影像学研究。此外，在招募和完成过程中都存在强烈的选择偏差，研究已经证明了年龄、教育程度、血统、地理位置和健康状况方面的偏差。此外，与特定疾病有家庭关系的人更有可能自愿作为健康对照进行研究，导致某些遗传标记在研究数据集中比在整个人群中更普遍。因此，在考虑研究数据时了解到的关联可能无法推广，在将在这些数据集上训练的任何模型外推到临床人群时必须小心。

4. 可解释性和信度

如果不是因为深度学习方法的另一个问题，领域转移带来的性能下降可能不会那么严重：模型将对任何数据输出预测，但该预测可能不一定有意义。如果没有未知选项，神经网络将输出一个预测，即使它是没有意义的或输入是无意义的。例如，如果将随机噪声图像输入到训练来预测大脑年龄的网络中，网络将预测随机噪声的明显有效年龄(见图4)。而在这里，视觉上识别纯噪声图像是微不足道的，其中网络被训练为更复杂的分类任务，识别错误的结果更加困难，需要临床和领域知识，导致一个关键问题：结果是否可信。

图4 随机噪声的模型预测

大多数人都同意，要用深度学习方法来确定病人的护理，它们必须是可解释和可询问的。可解释性通常被定义为以可理解的术语向人类提供解释的能力。因此，解释应该是逻辑的决策规则，从而导致选择给定的诊断或患者护理。这一点尤其重要，因为神经网络对它们被要求解决的问题没有语义上的理解。因此，如果X中存在有助于映射的虚假信息(或混杂因素)，那么这些信息可能会被使用，从而误导网络的预测潜力。考虑一下，例如，所有具有特定病理的受试者都被收集在同一台扫描仪上。然后，通过拟合扫描仪信号，而不是通过学习有关病理的任何信息，网络可以实现对该病理的100%召回准确率。然后，它很可能会从同一台扫描仪中识别出具有相同病理的健康对照。

如果不进一步探测训练模型的行为，就不会观察到混杂因素的影响，而且探测网络是不平凡的。这导致神经网络通常被描述为黑盒方法。

需要可解释的网络，允许理解和审查所做的决定，这是现有技术目前不可能实现的。虽然这对于许多计算机视觉任务来说是可以接受的，但对于临床神经成像任务来说，询问性是必不可少的。已经开发了一些方法来尝试实现一些洞察力，这些方法广泛地集中在两个主要领域：可视化和不确定性。

4.1 可视化

可视化方法通常试图通过在输入图像中创建一个重要的热图来显示输入图像的哪些方面导致了给定的分类。其中许多方法都是事后的，采用预训练的模型，并测试图像的哪些区域驱动了模型预测。最常见的是，它们分析给定输入图像的网络的梯度或激活，例如显著性图或分层相关性传播，并已应用于一系列MRI分析任务，以解释决策制定和大脑年龄预测。然而，人们仍然担心这些方法不能通过基本的完整性检查，并且不能提供对模型的有效洞察。其他方法是基于遮挡或摄动的，其中部分图像在输入中被移除或改变，随后生成热图来评估这种摄动对网络性能的影响。然而，大多数这些方法提供粗糙和低分辨率的属性分布图，并且计算非常昂贵，特别是在处理3D医学图像时。

这些后置方法除了原始网络外，不需要任何模型训练;然而，它们似乎经常无法识别一类的所有显著区域，特别是在医学成像应用中。分类器的结果基于某些显著区域而不是对象作为一个整体，因此，如果信息是冗余的，分类器可能会忽略一个区域，也就是说，如果它可以由图像的不同区域提供，足以最小化损失函数。因此，这些方法强调的感兴趣的区域可能不完全符合临床医生的期望(见图5)。

图5 使用显著性的局限性示意图

4.2 不确定性

不确定性的使用是一种旨在解决问题的方法，无论输入图像如何，神经网络总是会输出预测，无论多么不准确。因此，通过提供与预测相关的不确定性的估计，我们可以帮助用户做出是否信任模型预测的明智决定。神经网络输出的softmax值不是真实的概率，网络经常输出高的、不正确的softmax值，特别是当呈现有噪声或模糊的数据时，或者呈现给它们的数据与训练数据的分布不同时。因此，需要不确定性来适当量化预测的置信度。

文献中的大多数方法都集中在认知不确定性上，使用贝叶斯方法来量化不确定性的程度。这里的目标是估计模型参数的后验分布。然而，由于参数空间非常高维，直接解析计算后验是不可行的。因此，大多数方法使用蒙特卡罗dropout，其中dropout应用于每个卷积层，并在测试时保持;因此，我们能够从可能的模型体系结构的分布中进行抽样。然后通过预测分布的方差来量化不确定性，这是由预测阶段的多次迭代产生的，在测试时存在dropout，如图6所示。

图6 模型不确定性

4.3 询问决策边界

对于神经成像中的许多应用，深度学习算法的输出，如果应用于临床，可能会直接影响患者的护理和结果。因此，显然需要能够询问决策是如何做出的。尽管可视化方法允许检查图像的哪些区域影响了预测，并且不确定性使我们能够洞察我们应该对预测的信心，但对于许多应用程序，我们需要准确地知道哪些特征导致了给定的预测，以及需要改变什么才能使结果不同，并帮助识别任何驱动预测的偏差。

5. 评估

5.1 训练标签可获得性

度量标准的评估需要标签：基本事实。我们通常将基本真相视为领域专家创建的标签;这些标签是训练模型的关键，但不一定构成标准临床实践的一部分。对模型性能的评估和训练有监督的方法都需要标签。

这加剧了数据短缺的问题，因为我们既需要大量的数据，也需要等量的标签。这些标签的获取成本很高，需要分配大量的专家时间来管理以及专家领域的知识，并且不太可能适用于每个临床成像站点。因此，我们需要在标记数据点数量较少的情况下工作的方法。

很少和零镜头学习方法在非常低的数据环境下工作，并开始应用于医学成像问题。它们不太可能很好地推广到来自其他站点和扫描仪的图像，因为所看到的变化不会跨越预期的数据变化，但它们可以帮助开始学习几乎没有标签的相似被试的集群。无监督域自适应已得到更广泛的应用，包括用于神经成像问题，以帮助解决标签缺乏的问题，利用一个数据集的信息来帮助我们在另一个数据集上执行相同或相关的任务。

5.2 损失函数选择

当训练和评估模型性能时，我们必须选择一个我们的目标是最小化的损失或成本函数。虽然有些作品设计了定制的、特定于任务的成本函数，但大多数是基于标准函数，例如用于分类和分割任务的分类交叉熵，用于分割任务的Dice(重叠度量)和用于基于回归的任务的均方误差(MSE)。通常选择这些指标是因为它们易于理解和表征的行为。对于深度学习方法的临床转化，我们需要考虑哪些度量对临床应用最重要。度量标准只告诉我们故事的一部分:确保临床评估的所有重要信息都由所报告的度量标准提供是至关重要的。例如，在许多情况下，假阴性比假阳性更有问题，导致患者无法得到必要的护理。考虑到每个特定的应用，开发网络和损失函数是至关重要的。此外，在训练神经网络时，我们通常会最大化平均性能。然而，在实践中，我们更可能关心最难示例上的性能是否可接受，而不是最简单示例集上的性能是否略有改善。在更简单的例子上牺牲少量的性能，以换取更难的例子上更好的性能，这可能会给出相同的总体平均性能，这可能是更可取的。因此，将平均性能最小化的标准做法可能并不合适。

6. 后勤挑战

6.1 计算资源

最后一类挑战是后勤方面的。在成像挑战中应用的许多最成功的方法都涉及到大型集成模型，如nnU-Net ，这导致了许多参数，因此必须存储和计算。尽管这些方法在挑战中取得了成功，但在实践中，这些方法通常无法在可用的硬件上实现。因此，为了临床可译性，需要开发一些方法，考虑到部署时存在的计算限制，并寻求在这些限制条件下工作的解决方案。学生-教师网络和模型蒸馏旨在创建能够模仿原始大型模型(教师)性能的较小网络，从而减少最终部署的网络(学生)中的参数数量。其他方法使用可分离卷积，这大大减少了网络中的参数数量。模型剪枝承认神经网络中的参数是稀疏的，因此，通过去除那些对最终预测贡献最小的参数，我们可以在保持性能的同时减小模型架构的大小。

6.2 数据共享和数据隐私

如果我们想让CNN在真正的临床应用中为患者工作，我们需要能够在相关的、现实的和有代表性的医疗数据上训练我们的模型。目前的许多方法都集中在通过从图像中删除姓名、出生日期和面孔等可识别特征来汇集来自不同站点和患者群体的匿名数据。然而，神经网络仍然能够从这些匿名图像中提取可识别的特征，如年龄和性别，结合医院位置和疾病等其他特征，可以识别。神经网络提取这些信息的能力只会越来越强。此外，识别风险的一部分来自于其他辅助信息的存在，例如，在神经成像中，用于获取图像的扫描仪。这就是所谓的链接攻击，使用经典的匿名化技术对字段进行保护越来越困难。

虽然对医学研究人员来说，去识别这些数据似乎是一项额外的任务，但有些人的核心业务模式是将用于研究目的的医疗数据去匿名化，并将这些信息出售给保险公司。去匿名化研究是一个快速发展的领域，例如，重建受损医学图像的面部。因此，为了避免未来的数据隐私问题，避免私人医疗信息聚合的方法是有价值的。

幸运的是，医学研究并不是唯一一个在处理敏感的个人信息方面面临困难的领域。例如，银行和移动电话公司以前就遇到过这个问题。

因此，我们可以利用近年来迅速发展起来的保护隐私的数据分析技术。

联邦学习(图7)意味着在存储在世界各地不同设备或服务器上的数据上训练或测试您的模型，而不必将数据样本集中收集到一个本地聚合数据集中。

图7 联邦学习框架

7. 总结

基于深度学习的方法和大规模成像数据集(如UK Biobank)的结合，为神经成像提供了许多机会。然而，很明显，要想在临床领域充分体验这些方法的影响，仍有一些挑战必须克服。最终，为了使模型能够成功部署，必须将临床需求和限制考虑到模型设计的核心，以便所生成的模型是稳健的、可靠的，并且能够改善患者的结果。在本文中，我们讨论了与数据可用性、可解释性、模型评估和数据隐私相关的问题。

基于深度挖掘的方法已经开始获得美国食品药品监督管理局(FDA)的批准，用于医学成像，但这些方法的影响或应用还有待观察。然而，神经成像的挑战可能与计算机视觉领域的挑战在重点上有所不同。特别是，可解释性——询问决策制定和信任决策过程的能力——可能是可解释性的一个重要障碍，可能需要在一般计算机视觉领域之外的具体努力。

1.ml_basics
1 Part 1 机器学习综述从过去的大量数据中“总结”出来“泛化规律”，用于新数据预测。不同类型的机器学习 1...
医疗影像数据集
Github上哈佛 beamandrew机器学习和医学影像研究者-贡献的数据集https://github.com...
人工智能3
高性能的深度学习方法将在不久的将来超过临床应用的门槛，因此可以迅速转化为临床应用对肿瘤影像学的影响这一节中，我们将...
临床基线表与COX回归
在临床研究统计分析中，临床基线表对于展示研究数据的信息和结构尤为重要。本文以R语言中自带临床数据集lung为例，展...
协助系统综述和meta分析的21个工具
众所周知，相比于临床实验研究，综述和Meta分析不需要做实验，而需要通过研究大量文献收集相关数据，并对其进行分析评...
综述：机器学习在CTR中的应用
背景：设计个性化信息检索时，用户行为预测扮演着重要的作用。用户行为预测的目标是估计用户点击、购买等行为的概率，而该...
论文阅读（37）Small Data Challenges in
1. 简要介绍题目：大数据时代的小数据挑战:无监督和半监督方法研究进展综述Small Data Challeng...
机器学习基本概念(一)
机器学习：根据学习算法从海量的数据中总结出规律的过程，总结出来的规律称为模型，机器学习研究的主要内容是关于在计算...
机器学习实战
机器学习的真实含义：利用计算机彰显数据背后的真实含义。机器学习就是把无序的信息转化为有用的数据。机器学习的主要任务...
2016年7月31日（week4神经网络1）
今天coursera学习吴恩达的机器学习终于进展到了神经网络这章。 Neuron rewire experimen...

Neuron综述：机器学习在大数据影像研究临床转化中的挑战

相关文章

1.ml_basics

医疗影像数据集

人工智能3

临床基线表与COX回归

协助系统综述和meta分析的21个工具

综述：机器学习在CTR中的应用

论文阅读（37）Small Data Challenges in

机器学习基本概念(一)

机器学习实战

2016年7月31日（week4神经网络1）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读