摘要
放射影像将继续作为肿瘤领域最有效以及最有价值的工作。AI将组织的特性用数学公式或者深度学习方法进行量化。放射学的经验以及大量的研究报道均表明这些量化特征与临床相关甚大。当前最大的挑战是影像数据的处理。有些是比较特殊的,比如有些数据的处理是重复化与批量化的,这些方法在一些领域中尤其突出,比如基因组学。这里我们介绍医学影像数据处理过程中可能会遇到的一些陷阱与并给出一些有价值的分析策略,包括数据的标准化,构建稳健的模型以及可靠的数据分析。这些策略不仅会提高数据分析的质量同时有助于与其它数据集联合实现精准医学。
引言
数据分析策略
虽然具体问题具体分析,但是一些通用的策略将有助于增强研究的真实性与泛化性。
图1
设计:Research definition, data curation, and strategic decisions
实验的设计应该在研究开始就被定义好。在研究开始时就应该向有经验的统计学家进行咨询。期望一个更大的挑战, 定义研究问题,判断需要的资源和数据以及与分析相关的高水平的决策。
定义研究问题
一开始的时候,整个研究的范围以及对领域的影响要通过阅读现有的文献以及咨询专家来确定。然后要确定研究的可行性,以及理清整个研究的时间线。如果可能,通过分析额外的数据与资源来得到更大的影响力。最后确定研究的问题与确定需要的研究资源。
组织数据与资源
这一阶段影像与临床数据应该一同被收集并组织起来,可被计算资源获取,方法学也要建立起来。认真整理和临床和影像图像的标注对于数据与分析的质量控制是十分重要的。为了增加结果的可重复性与可解释性,应优先选择经过验证的免费开源工具,而不是商业版本。如果有多个数据分析师对数据进行分析,最好让他们使用相同的计算平台和相同的软件版本,保证结果的可重复性与一致性。研究者应力求训练集与验证集中各种表型数据的均衡。这里均衡是指结果变量的分类的相差不大的,如果不能避免,要使用重采样的方式。
制定分析策略
一旦范围限定,数据和资源整理完成,要决定分析策略。要review所有的分析方法来决定最合适的影像数据分析方法。例如,特征量化策略(工程化特征or深度学习),图像预处理方法,数据标准化方法,降维与特征选择方法,以及监督与非监督模型方法。如果是探索性研究,这些都要被探究。在这一阶段,另一个重要的步骤是锁定训练集与验证集。在分析阶段,训练集在探索性经验分析中选择与锁定计算方法。验证集中数据应该保持不变直到所有的方法在训练集中都被限定。锁定验证集才能保证信息不在从训练到验证的过程中出现泄露从而降低过拟合的概率。
当数据量比较少不能得到显著性的结果时,在设计阶段一些可以观测到的陷阱要避免。训练数据太少会降低模型的学习能力,验证集太少阻碍了潜在假设的真实评估。在这种情况下,最好能增加数据量,探究我们关注的问题,或者延迟分析到最后的时间。虽然不可取,但是在设计阶段放弃这样的分析其实是最合适,因为这样的数据达不到统计显著性。这种过早的分析,可能会增加对数据的过度拟合,研究者甚至能捕捉到可以发表的结果。
分析:预处理
在第二个阶段,分析开始是量化影像特征并最终创建和验证标识物。在进行影像群体分析的时候,需要一定的预处理来减少图像之间的技术差异。不同来源的数据的差异首先要进行探究,这些主要来自于扫描设备的不同,信号的漂移,其它的一些组织相关的校正以及纵向效应和采集方案的不同。要选用一些校正整体差异的的统计方法,这样才能真正进行评估以及潜在假设的验证。
图像的预处理先于图像的量化的一个例子是在数据分析之前进行图像的重采样成各项同性的体素保证图像分辨率的统一。各项同性可以从DICOM数据操作也可以通过其它的图像格式操作。此外,一些模态,比如MRI图像要进行图像强度标准化。变异源以及图像标准化是图像相关的批量效应的重要校正方法。
分析:影像组学量化
在放射学里面,AI可以进行复杂的组织特性量化(如图2所示)。这些方法可以将3D的放射学影像转换成高维的特征描述因子。这种方法叫做影像组学,使用特征工程和深度学习,我们将会分别描述这两种方法。
工程化特征
工程化特征是事先定义好的,通过硬编码设计的量化特定疾病组织的特征。特定领域的专长可以用于识别疾病组织的表型特征,这些特征可以通过自动的数学计算与编程提取。例如,毛玻璃结节的透明度被认为是肺结节管理的一个重要因子。特定领域的知识已经基于结节的灰度分布定义和提取不同的统计特征。已经证实结节CT值的中位值显著低于部分实性与实性结节。类似的,基于形态,纹理与肿瘤区域异质性的不同的影像组学特征已经被证实与肿瘤的临床终点或者在其实领域,比如心脏方面有关联。
其它的数据标准化步骤,考虑到数据范围,尺度,以及这些特征的的分布统计不同,需要对数据进行特征变换,特征标准化。如果数据不进行变换可能会有不同的偏度,这会导致在小样本中后续的统计有更小的统计值。如果数据不进行标准化会导致特征在统计模型中过或低表示,最后引入分析偏差。方法像标准化或者变换会让数据变成以0为中心,同时有相同的方差与相同的分布。
深度学习
深度学习可以从图像上直接提取不同水平的不需要额外定义的特征。它提供了一个更高水平的特征提取,因此可以提供更好的预测表现。尽管深度学习在一些实践中取得了比较显著的结果,但是背后的理论仍然没有建立越来。没有最优标准导致在数据分析中挑选合适的模型是十分具有挑战性的。当前的问题是:除了数据的类型与量,分类,探测,分割,配准,以及重建,所以的都暗示需要更好的框架。通过已经公开发布的框架开始一些成功的任务是操作性比较强的。卷积神经网络在医学图像处理中是非常流行的。迁移学习或者使用训练好的网络在处理数据比较少的情况下是十分有用的。数据标准化是深度学习的一个基本预处理步骤。它确保了数据的稳定性以及更快的收敛。它可以根据数据的类型通过样本分析,特征分析以及主成分分析来标准化数据。需要注意的是,即使数据进行了标准化,数据的分布在进行网络后也会有比较高的可能会发生改变,因为参数在训练过程中一直在最优化,并且通过批标准化与层的标准化减少这些影响。因此标准化其实是模型模型的一个完整组成部分,而不是单纯的只是在数据预处理的时候操作而是在每一层中都要对数据进行标准化处理。
在选择数据量化方法前有几个关键点需要注意。尽管深度学习能够自动的进行数据的量化,它通常需要非常大的数据集。通常应用定量影像,管理和整理大量的类似病人的影像,人口统计学数据是十分具有挑战性的。特征化的工程对群体大小不是特征敏感,但是需要专家进行手动定义。通常他们需要对病灶进行分割。最近迁移学习可以将深度学习应用于小样本数据。因此在选择量化的数据前需要进行细致的考虑。
分析:定义生物标记物
医学图像数据的量化分析包括从大量的影像特征上挖掘具有高预测能力与高预后判断能力的生物指标。这里我们分别分析特征化工程和深度学习如何来做。
工程化特征
大量的特征化工程从医学影像数据提取而来,它有非常高的冗余性。适当的特征筛选策略可以减少特征的冗余并降低维度灾难。大量的监督与非监督的特征筛选方法已经在其它的文章中有介绍。非监督的方法通过主成分分析,独立成分分析与相关分析不依靠结果数据来减小数据空间。监督学习则会利用结果,监督方法可以分为三类,wrapper, embedded, 以及过滤的方法。前两个计算比较耗时并且使用了比较严格的模型假设,并且一般性不强,而过滤的方法有更高的有效性并提供更好的普适性。
高准确性,可靠性,以及有效性的预测与预后模型是劲霸定量影像技术的重要因子。在机器学习中不计其数的基于不同的统计假设的监督与非监督的方法存在于机器学习的文章中。有一些文章对比了这些技术在定量影像分析中的价值。这些文章证实了预测评分受模型的影像非常大。因此选择特征筛选与机器学习的方法需要认真考虑。
在生物标记物识别阶段一个最大的陷阱是过拟合。现在有一个趋势,研究者极尽全力通过不同的模型,不同的方法来获取更高,可以发表的表现,这反而导致了生物标记物的一般性。在这种情况下,应用locked以及独立的验证集是非常有必要的。
深度学习
在深度学习中,降维以及分类与特征提取是一块进行的(如图2所示)。质量以及输出结果依赖于不同的超参数如网络的层数,特征图,层的安排与框架,接收场的大小。许多不同的网络框架用不同的超参数集合来进行描述。预测模型的表现受到这些超参数与框架的影响。如在特征化工程中一样,用尽各种办法来最优化超参数会也是深度学习的一个陷阱。深度学习框架的选择要依托于研究的目的,手头上数据的特性以及数据量的大小。
在深度学习中过拟合是一个非常大的挑战,并且会影像网络泛化的能力。通常,深度学习被看作是一个黑盒子,并没有给出足够的精力来研究它真正的方法与技术。这个在小的样本集中尤其突出。过于复杂的神经网络在小的样本集上极易出现过拟合。用比较潜的网络可避免过拟合,但是也会导致训练不充分,导致欠拟合。数据扩增或者通过Dropout以及其它的规范化方法来减少过拟合。Dropout让网络对于单个数据的权重不太敏感从而增加了网络的可靠性。其它的规范化方法允许惩罚大的参数权重从而使网络更稳定并且泛化能力增强。在训练的过程中,网络的表现可以通过交叉验证与评估。一种基于交叉验证的早期停止方法可以避免过拟合。这些重要的步骤可以在生物标记物识别过程中加以考虑。
分析: 生物标记物的验证
如前面章节所说,避免过拟合与防止数据泄漏是机器学习与深度学习最为基本的。这必须保证验证集在在训练和参数调整过程中是全程静默的。只有确定的模型,网络架构,计算方法与超参数后,才能执行验证环节。这一步保证了真正的假设验证。
应使用合适的模型表现度量标准,尤其是不均衡的数据。例如,分类器的准确度对于事件种类的比例是十分敏感的。导致欺骗性的过最优化结果。准确的评估要给出更多的表现度量标准,比如AUC,特异性,敏感性,阳性预测值,阴性预测值。此外,生物标记物对于数据置换的敏感性也是生物标记物验证的一个重要环节。一个基本的,并且比较宏观的选择生物标记物的步骤是执行多重检验校正。当验证成百上千个特征的时候,可以会发现许多与预测结果相关的特征。为了避免出现这种情况,可以采用BH校正。
为了测量真正的临床影响,在验证的过程中与真正的临床指标进行对比是基本的。此外,是否发掘的指标与临床指标结合是否有助于提高最终的表现也要评估。
分享与报告
数据与代码分享
在最后一个阶段,关于数据, 分析方法与结果的详细的报告要拿出来。此外,分析策略与代码以及原始和预处理的数据也应该一同进行描述。
一些技术与隐私的问题在数据分享的时候要进行充分地考虑。在整个研究过程中要做好病人的保密工作。The cancer Imaging Archive可以用来保存影像数据,github可以用来托管代码。
统计与协议分享
因为构建特征标记物包括非常多的分析步骤,对于统计方法详细的描述可以保证结果的可重复性。在分享的文档中,我们建议给出样本和特征的数量,特征的定义,统计检验以及在分析中使用的算法,模型列表,使用的超参数,最优化的方法,名义以及校正后的p值,以及统计有效性的度量。一旦数据进入了量化步骤,会生成一个特征*样本的的矩阵,一旦样本的识别标记去掉,数据的分享就不会涉及任何的病人隐私泄漏。一种是有效的数据分享方案是把数据,分析报告和可以运行的代码块一并打包进R包中。对于使用深度学习的研究,网络的框架,以及超参数要进行分享。此外,带有权重的网络更有助于迁移学习。随着深度学习的进展,用ONNX格式的分享训练好的网络可以保证多个平台的兼容性。
网友评论