对话Gustavo Rohde教授——组织病理学AI诊断应用专家
原创 图灵基因 图灵基因 2022-12-14 14:04 发表于江苏
收录于合集#前沿生物大数据分析
对话Gustavo Rohde——美国弗吉尼亚大学生物医学工程和电子与计算机工程教授
Interview by Jonathon Tunstall
BIOSKETCH:Gustavo Rohde是美国弗吉尼亚大学生物医学工程和电子与计算机工程教授,他负责图像和数据科学实验室(imagedatascience.com)。他分别于1999年和2001年在Vanderbilt大学获得物理学和数学学士学位以及工程学硕士学位。2005年获美国马里兰大学应用数学与科学计算博士学位。他在生物医学成像、信号和图像分析、应用数学、计算生物学和机器学习等领域发表了超过100篇同行评审论文。他曾担任IEEE图像处理学报、IEEE信号处理快报、IEEE生物医学与健康信息学杂志、BMC生物信息学杂志和Cytometry A journals的编委会成员。他目前是美国国立卫生研究院生物数据管理与分析(BDMA)研究组的正式成员。Rohde博士曾担任2021年IEEE国际生物医学图像研讨会(ISBI)的项目联合主席。
JT –Rohde教授,您是一名计算病理学家。您在职业生涯的哪个阶段接触到了数字病理学领域?这是您偶然发现的,还是您早就对成像技术感兴趣了?
GR—大概在10到15年前,当我第一次以教授的身份加入学术界时,很明显数字病理学是一个新的领域,它是通过引入硬件(如全切片成像)而出现的。很明显,这是一个不断发展的领域,像我们这样的人有机会通过数学和建模在数字图像分析技术的应用上做出贡献,特别是在癌症领域。随着全切片成像技术的引入,许多病理学部门意识到未来是数字化的。越来越多的病理学家愿意冒险,进入这个世界,看看数字图像分析能为他们的领域做出什么贡献。我开始思考“我们如何从他们的角度来改善事情”,我接触的人越多,就越清楚需要做出重要的贡献。
JT –您是否偶然发现某个特定的扫描平台或应用程序激发了你的兴趣?
GR–当时,我在匹兹堡,我们与匹兹堡医学中心有合作。当时,他们与通用电气(GE)建立了合作关系,成立了一家名为Omnyx的公司,但当时已经有了Aperio等其他公司的数字扫描仪。我们和病理科的几个人有合作,我们一起写了几篇论文。
JT–所以你看到了这个新的数字成像领域和计算机分析方面的契合。最初在图像分析或数据管理方面是否存在重叠?
GR–我在培训中的兴趣是对图像数据中描述的内容进行计算机建模和数学建模。现在病理学的分辨率越来越高,可以看到单个细胞,亚细胞结构以及组织结构。您可以两全其美,但也可以获得大量数据。我意识到,经过15年甚至20年的进步,我们做出了很多贡献,其中很多都是我们所说的工作流程改进。例如,能够以高分辨率数字化全切片,能够以轻松的方式远程存储和检索。这些进步促进了病理学家工作流程的改进。如果他们想在家里看一些东西,或者想从街对面或全国各地的同事那里获得第二意见,现在需要的时间都差不多。有很多这样的改进,我广义地称之为工作流程,但与此同时,我看着这个领域,会说,“我所在领域最大的问题是什么?”这与我们如何在硬件、成像技术、数据存储、数据传输、计算和数学建模方面利用这些贡献有关。我们怎样才能把这些事情放在一起来做以下两件事?
第一件事是改进数字病理学背后的科学,建立对不同恶性肿瘤中细胞和组织组成的科学理解,无论它们是否是癌症。据我所知,病理学(请允许我澄清一下,我不是病理学家)受到病理学家日常使用的许多信息没有以严格科学的方式收集的影响。这是一种格式塔方法,例如,有些病理学家喜欢在高倍镜下操作,有些喜欢在低倍镜下操作,有些人更重视计数细胞,有些人则更重视其他方面。我并不是说这是一门糟糕的科学,只是说,通过提供更可靠、更可验证、更定量的测量方法,可能会有机会改进病理学背后的科学。
第二件事是,我们如何利用这些改进的理解来做更好的诊断,给出更准确的预后,了解何时给予哪些患者何种治疗,从而从广义上改善患者护理?
这两件事结合在一起,为像我这样的人提供了一个为这个领域做出贡献的机会。
JT -也许我们可以说,在病理学数字化的世界里,您的数学建模专业已经成为该领域的主要分支。也就是说,如果我们认为病理学的核心组成部分是一张图像,我们对这张图像进行分析,无论是用人脑寻找模式,还是用某种计算机算法做同样的事情。我们可以这样认为,病理学的最新进展并不是由对生物学理解的增强所引领的,更多的是由一系列基于计算机的技术(如图像处理、数据管理、网络和图像分析)的同时快速发展所导致的。
GR–这从来不是一个参数的问题。数学建模是必需的,但从了解生物学及生物物理学,哪些分子、哪些蛋白质对成像和靶向很重要等方面出发,一系列其他参数也是必需的。我们需要知道这些因素在良性和恶性肿瘤之间的区别。这种理解必须是方程式的一部分,一旦你有了一些假设、一些目标、一些靶点,那么你就必须考虑什么是合适的实验室技术。一旦你知道你是想测量染色质还是肌动蛋白,微管蛋白,微管还是线粒体。一旦你有了这种理解,那么下一个问题是,什么是合适的实验室技术?我们用哪种染色剂? 合适的制备方法是什么?然后你再问我们需要什么硬件? 我们可以使用什么成像技术来获取所需的信息? 把所有这些放在一起,生物学,成像物理学,以及对相关信息进行数学建模的技术。把所有这些放在一起,我们可能会看到科学理解的真正进步,转化为患者护理的改进。
JT–您认为准备工作的标准化是我们目前面临的最大挑战之一吗?
GR–是的。当然,我们已经处理了来自不同中心的大量数据。即使在同一个中心,你有时也会看到每个月的变化。也许是人员的变化,或者是基本的日常准备方法的变化。即使是H&E染色有时也需要正常化,对于我这个领域的工作人员来说,这可能是一个核心问题;如何规范多幅图像的强度?这是图像分析的核心问题。如果我们从基本原理上理解数据的来源,就可以用数字方式完成。这也可以通过进一步标准化实验室技术来实现,但我们要如何实现呢?我认为基础理解、基础科学将为我们奠定基础。我们需要确定我们需要收集的最重要、最合适的数据是什么,如何测量这些数据,以及如何以一种更容易校准和标准化的系统方式进行测量。
JT–您是否在工作中使用过任何商业软件包,或者您是否对这些软件包进行了评估,以了解它们在某些标准下的表现?
GR -我们和匹兹堡的研究人员做了一项研究,我们研究了一个癌症分级软件包,考察了该软件包给出正确分级的能力。我们的问题是,我们的问题是,在基本成像参数方面,它的稳定性和可靠性如何?我们已经知道,在一些扫描仪器中,根据一天中不同的时间,光照会有变化。例如,如果你在早晨扫描一张图像,而机器处于某个温度,并且有一段时间没有使用,那么你会得到一定的照度和强度分布。然而,如果您在机器预热并已使用数小时的当天晚些时候扫描图像,则会得到不同类型的强度分布。这通常是肉眼几乎察觉不到的,但我们试图看看这个软件包在图像强度、亮度、对比度等微小变化方面有多稳定。结果并不乐观。相同制剂的分析存在很大差异。
JT—所以像温度和环境光这样的变量实际上会影响图像分析包的输出?
GR–可能是的,如果照明灯没有完全校准,可能会产生影响。正如许多其他因素一样,如样品制备、技术人员与其他人员的对比。其中几个因素可能会导致组织制剂外观的微小变化,事实证明,我们作为一个团队已经使用了一段时间的许多算法,如果你仔细研究它们,会显示出相关的巨大变化。我认为我们有大量工作要做,因为我们必须大幅改善这种情况。
JT–是的,我明白了,减少变量。我必须承认,我以前从未考虑过图像分析包的输出可能会受到环境影响。
GR—我认为从学术的角度来看,当发表一篇论文时,越来越多的人会要求在发表之前进行这种基本的理智检查。
JT -我们现在也看到一些相当优秀的开源图像分析应用程序正在出现。你会考虑在你的日常研究中使用这些软件包吗?
我知道其中一些,但由于我们是经过培训的工程师,我们都有自己喜欢的技术来分割细胞,从像素强度中提取数字特征,我们有自己的建模技术。这是我们的工作,我们只使用我们最了解的东西。有些人已经在这个领域工作了20多年,所以在某些方面,我们还没有看到更广泛的开源数字图像病理学环境,这是令人惊讶的。当然,图像分析领域一直不乏开源编程环境,如Python、Matlab等。然而,对于我们这样的人,工程师,数学家来说,所有这些开源应用程序都已经存在了,在GitHub或类似程序中找到一些等效的代码下载并运行通常只需要几个小时或几天的时间。考虑到这一点,我认为这些开源软件包在某种意义上已经过时了,但我们都坚持自己的方法。
JT—您是否有专门研究的特定肿瘤类型或组织类型,也许有靶向疗法?
GR–是的,事实上,我们每天都会问的问题是,什么样的贡献是最基本的,你可以用它来做基础科学,并能持续下去?我们能做出什么贡献,而这些贡献不会昙花一现,十年后仍然有用和相关?从这个角度来看,我们观察细胞,想知道哪些信息可以很容易地提取出来?它对不同类型的癌症有帮助吗?之前有证据表明这是一条卓有成效的道路吗?出于这些原因,我们决定专注于寻找从数字病理图像中测量和量化核结构信息的方法。我们写了一系列关于各种癌症的论文,包括黑素瘤,肺癌,甲状腺癌,肝癌,乳腺癌等。这是因为多年来,通过与真正的病理学家的合作,我们已经意识到从组织图像中提取的最确定的特征之一是细胞核,并且有许多染色质,它们是核结构、染色质密度、核形态等特有的,我们做了几年的一个项目,写了一系列的论文,就是:我们如何正确地模拟细胞核内染色质分布的信息内容,就像在这些不同类型的成像染色中描述的那样?我们怎样才能建立真正的模型把来自不同扫描仪,不同中心,甚至不同癌症类型的数据整合在一起呢?我们可以问这样的问题:A型恶性肿瘤的分布情况如何,它与B型癌症有什么关系?我们知道,在这方面已经做了很多工作,这些都不是新问题,但在过去,人们主要关注于测量某些独立的属性,这些属性本身在物理上是非常稳定的,但并没有提供一个完整的视角来了解细胞核中发生了什么。
JT -我的理解是,细胞核的大小和体积是区分癌细胞和非癌细胞的关键参数。我想你的意思是,还有很多其他的核参数我们也应该考虑进去?
GR–是的,但问题是哪些参数以及如何组合它们?很久以前,人们就意识到,在试图区分一种癌症的良性和恶性或侵袭性时,像核面积这样的单一参数可能只能提供少量的辨别能力。然后人们意识到,如果你加入第二个参数,比如核周长,你就可以得到改进。当然,您可以添加其他参数以获得进一步的优化。在这一点上你必须思考,结合这些不同的参数意味着什么,例如,面积以平方米为单位,周长以米为单位?如果你看看物理学的世界,人们什么时候会这样做?这有什么意义?我们需要回答这些基本问题,然后使用这些知识来描述整个细胞核。这意味着不要只使用单一的特征,而是使用整个像素信息,这样你就不会遗漏任何东西。你怎样才能以一种自洽的方式吸收所有的特征信息,并使其具有物理意义?我们怎样才能做到既能和物理学家交谈,又能向病理学家解释,同时又能捕捉到所有可以用于统计回归的信息呢?
这就是我想说的,找到基本的方法把它变成一门科学。如果我们能做出贡献,这还有待观察,但也许这将是一个有用的贡献。核形态学在病理学中有着非常深厚的传统,我们认为这将是一个很好的开始目标。一旦你弄明白了这些基本原理,你就可以运用同样的技术来问线粒体与细胞的能量学有什么关系?我们必须记住,当涉及到图像分析时,我们是在处理大量信息。即使从单个细胞核的图像中,你也可以得到100×100像素分布。这是非常大的信息量,你必须弄清楚如何科学地对待它。
JT -我认为生物系统是完全异质的、不可预测的,而你却试图将物理和数学等理性科学应用于这些高度可变的生物系统。你如何以一种合乎逻辑的、可验证的、可重复的方式为生物异质性建模?
GR -对,这是下一个层次的问题。一旦你确定了要测量什么,以及如何以科学的方式测量这些参数,你还需要考虑如何正确地描述生物异质性。如果你观察一个肿瘤,你会看到数千甚至数百万个细胞,尤其是全切片成像。从生物学上你也知道,即使是在恶性组织中,也不是所有细胞都会表现出你所寻找的癌症表型。你知道背景中存在生物异质性,但你如何建立数学模型呢?这个问题与统计领域也有重叠,什么是适当的重叠呢?该领域的适当建模是什么?有很多基本的问题要问,还有很多我们仍然无法回答。人们做了很多工作,他们应用了很多技术,但如果你问不同的人,标准是什么?做这些事情的科学公认的标准方法是什么?你会得到太多不同的答案。这就是为什么我说要建立学科的基础。为了了解要采用哪种模型,我们需要问,这个分子的亚细胞定位在良性和恶性之间有什么区别?不同类型细胞的组织结构有什么不同?如何测量它们?哪些实验室技术可以标准化,如何用足够高的分辨率测量这些技术?如何提取正确的像素信息?如何对组织中的统计异质性进行建模?为了建立一个基础,建立一个普遍接受的方法来建立这个领域,有很多问题需要回答。
JT–您是否在使用机器学习原理来帮助改进建模和更好地理解这个过程?
GR -部分是。这是一个艰难的领域,因为有很多人试图用机器学习方法提供不同的进步。而且,在我看来,这些机器学习方法往往会绕过我们一直在讨论的科学基础。弄清楚该研究哪些分子,如何测量正确的东西,如何对待生物异质性,如何用数学和统计方法对这些参数建模。就我个人而言,我认为这是一种被误导的方法。已经做了很多工作。很多人直接获取像素强度,并通过分类器或深度学习层次结构或通过神经网络的进化等将其与患者的输出相关联。在我看来,这还有待观察,但我的预感是,对于一个关键系统(癌症诊断是一个关键系统,因为至少对病人和亲属来说,犯错误是有一定代价的),对于这样一个关键系统,我觉得尽管机器学习可能是解决方案的一部分,但它不是我们应该专注于建立学科基础的地方。
JT–所以,如果我们接受您的观点,即我们仍在制定基本规则,并且在图像分析和人工智能应用于图像分析方面还处于起步阶段;我想知道作为一名计算生物学家,您对未来的看法是什么?算法是否变得越来越复杂,并最终将病理学家推向边缘?一旦我们通过计算机科学驯服了生物异质性,病理学家的未来角色将是什么样子?他或她是否只限于签署计算机生成的诊断?
GR -这还有待观察。我认为这样的事情发生是有可能的。也许在未来,我们会有非常好的图像分析算法。这种情况有可能发生,我现在还不能排除这种可能性。问题是我们能不能做到,如果能做到,怎么做?我的观点是,如果我们要达到那个目标,或者至少有最好的机会达到那个目标,我们就必须解决基本问题。所有这些问题我们一直在讨论。你测量的是什么?如何从像素数据中测量它?你有合适的实验室技术和合适的成像方法吗?然后,在未来,我们将看到对病理学家非常有用的数字辅助工具,他们将能够单击按钮来实现准确的诊断。
你还说图像分析还处于初级阶段,在这里你必须记住这不是一门新的科学。我们已经投入了大量时间和投资。举个例子,如果你看看神经网络,在某些方面它们是50年前发明的。第一个试图描述不同类型细胞之间差异的细胞成像技术可以追溯到20世纪50年代。当时,由于缺乏成像能力和计算能力,他们受到了很大的阻碍,这是在过去二三十年中发生重大变化的一个方面。因此,从我的角度来看,我们正处于解决这些问题的初级阶段,但我们已经研究机器学习和图像分析很长时间了。
JT -我的感觉是,建立解决生物异质性的基础也需要很长时间。这是什么时候发生的?如果我们着眼于不久的将来,比如20年后。那是什么样子的?病理学家是否有一小批图像分析工具来辅助筛选过程,或者我们是否可以考虑全自动分析?
GR–好吧,让我们来看看过去20年人们一直在努力做什么。例如,有些公司一直在尝试自动化宫颈筛查。这对许多技术人员和病理学家来说是一项繁重的工作量。一些公司已经尝试制作专门用于细胞学的系统来缓解和改善这种情况,他们已经建立了自动处理图像的系统。他们观察特定的细胞,试图提取细胞核和细胞质的信息,并测量细胞核与细胞质的比率。然后他们得出一些基本的统计数据。重点是去除枯燥乏味的任务,以便病理学家能够更有效地利用自己的时间。他们成功了吗?是的,也不是。当然,病理学家正在购买这些系统,他们正在提高生产力。是2倍还是3倍?这取决于你和谁交谈,而结果实际上是相当复杂的。
所以,在未来,这是一个艰难的抉择。我们能否建立一个系统,将这种生产力,也就是数字图像分析的成功率提高到一个更高的水平?我认为这是可能的,你永远不能低估人类在面临关键需求时的创造力。我们已经学会了如何改造基因,很少会让情况变得更糟。所以,年复一年,我们至少在逐步改善。问题是,我们是否会看到生产力的巨大提高。我相信我们可以,但我认为如果我们可以,它可能来自于我们把基本概念组合起来,然后在这些概念的基础上进行建设。从某种程度上说,我们尝试抄近路,直接从图像出发,去掉基本原理,直接使用预测模型,我认为你会看到很多昙花一现的东西。五到十年后,我们甚至可能会讨论一种不同的方法,这会使我们无法在彼此的工作基础上再接再厉。因此,你提出的问题很难回答,我无法做出预测。
JT–所以您建议我们应该回到基础,例如,使样品制备标准化。然后我们聚在一起,大家都同意这是一个标准的制备,这是我们实现标准制备的方法。当然,这可能需要使用高度标准化的自动染色系统,该系统本身由计算机控制,不会对生物异质性的每一个可能的细微差别进行验证,但至少它产生了一个输入标准。然而,即使在这种情况下,您认为我们需要处理较低级别的可变性,来开发真正的自动化分析吗?
GR–是的,基础生物学。问题是:什么是不同的,什么是实际的图像?什么是更容易成像的实用生物标志物?如果你有了这些,那么现在你就有了一个标准化的实验室流程,很容易复制。你如何以标准化的方式成像?哪种图像分析算法足够稳健?如何提取正确的特征?如何对生物异质性进行数学建模?什么是正确的统计数据?我认为,所有这些因素加在一起,将是我们达到目标的必要条件。
你也可以从包括放射学在内的其他学科中找到相似之处。基本的投影放射学已经存在很长时间了,但计算机断层扫描、核磁共振成像等技术从一开始就数字化了。自20世纪80年代初以来,人们一直在追求基本病症、疾病、创伤等的自动化诊断,但即使是现在,如果你问这些自动化技术在多大程度上真正能够表明此人患有某种类型的恶性肿瘤,你也会得到好坏参半的答案。因此,有怀疑的空间,也有乐观的空间。有时我看到自己站在中间。数字病理学也可能走上同样的道路,20年后,我们也有了类似的对话。这很可能就是未来,但乐观地看,即使这真的发生了,也肯定会在工作流程、通信、存储等方面有改进。我们将看到进步。有时候只是很难预测它们会在哪里。
JT-您使用了“昙花一现”这个词,我想澄清一下,你是指非常明确的环境下的特定点解决方案吗?
GR–或者那些在当时看起来像是解决方案的东西,但经过几年的进一步研究,我们发现了根本性的缺陷,人们就放弃了那个特定的解决方案。这是昙花一现更深远的后果。我并不是说这一定会发生,但这肯定是有可能的。
JT -我对通过计算机系统进行大规模筛查的可能性非常感兴趣,因为目前显然缺乏病理学家。病理学家越来越老,年轻人也不愿意进入这一科学领域。如果你想到一门学科,比如前列腺分析,那么一种预筛查算法(当然要注意必须处理假阴性)将非常有价值,不是吗?
GR–是的,当然,还有图像分析的另一个方面,我们有时忽略了讨论。我们分析的辅助工具不仅有助于分析本身,而且有助于教学。这是一种检索相似图像和相似病例的能力,把一堆数据放在一群病理学实习生面前。的确,已经出现了一些重大的创新,它们将带来改变。图像分析在检索正确的图像和可比较的数据集以及进行安全可靠的计算方面可以发挥重要作用。这些类型的应用程序已经存在。毫无疑问,令人兴奋的事情将在未来发生,但很难预测哪些事情会真正有用,并且会长寿。在我们这个领域的人,机器学习者,他们也将提出持续不断的创新。有些将是昙花一现,有些将持续下去,在未来无处不在。然而,如果你问我,那些基于首先发现基础知识,然后利用这些知识来组合算法的解决方案是会成功的,这也是我倾向于重点关注的地方。
JT–然后FDA会说NO!监管,这是终极障碍,不是吗?你不认为所有这些解决方案面临的最困难的长期挑战是获得和保持监管机构的批准吗?
GR -这是关注基本面的另一个原因。如果你不仅能说明一个解决方案何时有效,而且能说明它何时失效。如果你能解释失败的时间和原因。如果你有所有这些理解,那么你就可以教会人们何时使用它,何时信任它,何时不信任它。如果这些答案与解决方案一起出现,那么我怀疑这将为通过监管机构的审批创造一条更容易的途径。
JT -Rohde教授,我们就讲到这里。感谢您今天抽出时间。
网友评论