美文网首页
Deep Learning Enabled Real Time

Deep Learning Enabled Real Time

作者: jinminbox | 来源:发表于2019-05-12 16:10 被阅读0次

    使用多模光纤阵列实现深度学习实时散斑识别和高光谱成像


    \color{red}{Abstract}

      我们展示了使用深度学习来快速光谱解构散斑图案。 可以使用从测量的光谱传输矩阵获取的数字构建的多光谱数据集来有效地训练人工神经网络。 在这些数据集上训练的优化神经网络实现了从单色摄像机图像中可靠地重建离散和连续光谱。 将深度学习与分析反演方法以及压缩感知算法进行比较,并且在过采样和稀疏欠采样(压缩)方案中都显示出有利的特性。 深度学习方法在漂移或噪声的稳健性以及重建速度方面具有显着优势。 在原理验证演示器中,我们使用多核,多模光纤阵列作为随机散射介质实现高光谱信息的实时恢复。


    \color{red}{Introduction}

      由于需要在复杂环境中和通过不透明介质进行成像,用于表征和控制多次散射的新技术目前正在取得巨大的发展[1]。这个新工具箱为随机介质中的光控制开辟了方向,并将其用于成像和光学信息处理等应用。同时,改进的理解使我们能够从看似随机的散射场中检索更多信息,以查看角落和不透明媒体[2,3]。对光散射的控制导致了令人兴奋的新应用,例如用于经典和量子状态的可编程多端口光学元件[4-7],量子安全密钥[8]和压缩采样成像系统[9]。

      散斑场的多光谱特征已经成功地用于一系列研究以实现散斑光谱仪[1015]。通过利用来自多模光纤的波长相关散斑图案,已经证明了可见光区域中近红外和纳米的光谱分辨率[16,17]。紧接着单通道光谱仪,将光谱分辨的散斑场多路复用成高光谱成像系统是非常令人感兴趣的。与传统方法(如积分场光谱仪[18,19])相比,复杂媒体可以为宽带传输与高光谱分辨率相结合提供新的机会[2022]。在空间领域,多模光纤以及多芯光纤束是各种成像应用的研究课题,如遥感和内窥镜[23-26]。

      最近,多核多模光纤束已被用作高通量成像光谱仪中的频率表征元件,用于亚纳米光谱分辨率的快照空间和光谱测量[27]。成功地使用压缩感测(CS)算法来检索光谱信息。诸如CS的凸正则化技术为计算成像中的许多问题提供了合适的解决方案。然而,除了它们的高计算成本之外,适用性还取决于稀疏性假设,并且实际上密集数据的性能降低。更快的数据处理和对噪声和漂移的鲁棒性要求可以从基于人工神经网络的完全不同的方法中受益[28-34]。最近已经证明使用可训练用于特定问题的神经网络的计算方法是高效且快速的[35-37]。最近,这种方法已被用于利用散斑图案的各种应用中,例如图像重建,对象分类和识别[38-44]。

      在这里,我们展示了深度学习(DL)神经网络在从散斑图像中检索光谱信息的成功应用。使用多模多芯光纤阵列作为多路散射光谱仪,我们可以在数千个单独的光纤芯上实现实时光谱成像。除了比其他基于CS的技术快几个数量级,我们还研究了DL对噪声的鲁棒性以及可能源于成像系统中的热膨胀或振动的图像偏移。我们展示了DL在这种条件下的适应性,并通过适当的培训获得了良好的性能。将DL的结果与CS和分析正则化反演方法进行比较。我们发现DL在压缩和过采样方案中都表现良好,将特性与快速重建速度和大量并行性能的良好平衡结合在一起。


    Fig .1
    a)实验装置的方案包括宽带超连续谱激光源,声光可调滤波器(AOTF),用于图像生成的空间光调制器(SLM)和多芯多模光纤(MCMMF)。 b)原始投影图像和检测到的光纤束的出口界面在单个选定波长下的相机图像,其具有针对不同输入波长(λ1-λn)的所选光纤芯的典型散斑图案。 La Linea©CAVA / QUIPOS。

    \color{red}{Method}

      我们使用多芯多模光纤(MCMMF)作为复杂散射介质(Edmund Optics,光纤图像导管)。每个单独光纤中的模式混合产生​​特征散斑图案,其具有由光纤长度和入射光的入射角确定的波长依赖性。为了与之前的结果进行直接比较,我们在第一次校准实验中使用了参考文献中描述的设置。 [27]。对于动画的投影,我们基于声光可调滤波器(AOTF)和空间光调制器(SLM)开发了如图1a所示的新设置。

      简而言之,使用分辨率为5nm的AOTF对超连续光源(Fianium SC400)进行光谱过滤。滤光后的光投射到单模光纤上,以确保照明光束随波长的稳定性,并消除设置中任何其他形式的光谱漂移。光纤输出从液晶空间光调制器(SLM,Holoeye Pluto)反射,并以4°的入射角投射到MCMMF上,图像缩小为5:1。 MCMMF由3012根纤维组成,单根纤芯直径为50μm。根据所需的带宽,不同长度的光纤可用于不同的应用[27]。在通过光纤阵列传输之后,MCMMF的输出面被成像到12位,500万像素单色CMOS相机的焦平面阵列上,像素尺寸为2.2μm×2.2μm(AVT Guppy),使用1:1成像系统。收集的图像通过IEEE 1394a传输到PC,并以23位(H)×1944(V)分辨率以12位保存为未压缩的TIF格式。

      图1b示出了在MCMMF的出射表面处以从各个光纤芯获得的波长相关散斑图案的形式获得的典型信息。每个图案对应于高阶光纤模式的叠加,其取决于波长,光纤长度和入射角。所有纤维芯都略有不同,材料特性,应变,杂质和其他随机结构元件的局部变化为阵列中的每个光纤芯产生一组独立的散斑图案。每个波长的散斑图案被存储到每个核心的多光谱传输矩阵中,这原则上允许使用许多不同的技术从任意叠加状态中检索光谱信息。


    Fig .2
    在该研究中使用的神经网络结构用于(i)5×5像素(Y / X = 0.58)和(ii)20×20像素(Y / X = 9.30)的像素区域。

      由多于一个波长分量组成的光谱以及连续光谱导致许多散斑图案的叠加。像Moore-Penrose伪反转这样的分析反演技术可以用来重建这些叠加的光谱,但它们的性能很大程度上取决于噪声,需要适当的正则化。在这项工作中,我们使用Tikhonov正则化(TR)[9]将我们的DL方法与分析反演进行比较。此外,分析反演仅限于过采样方案,并且在Shannon-Nyquist采样限制下观察到其击穿[22]。压缩感知(CS)在稀疏条件下将重建扩展到欠采样方案,在我们的工作中,使用python包“cvxpy”[45]实现CS与DL的比较。

      通过DL进行的光谱重建使用卷积神经网络(CNN)实现,该卷积由一系列卷积层组成,随后是两个完全连接的512和256个节点的层,具有使用70%保持概率的丢失正则化。 43个神经元的最终密集输出层代表光谱,其中每个神经元对应于离散波长信道。对于每个测试的采样条件,手动优化CNN的大小。对于感兴趣的区域(ROI)大小为5×5像素,表现最佳的网络由两个卷积层组成,每个卷积层为2×2内核(图2中的CNN(i),黄色)。在20×20像素上,发现整个网络中内核大小为3x3的三层CNN表现最佳(图2中的CNN(ii),蓝色)。每个卷积之后是批量标准化和泄漏的ReLU激活层,所有层都使用有效的填充。我们发现任何类型的池都不断降低重建质量,因此没有进行池化。这些网络是用python实现的,使用keras作为tensorflow的前端[46]。

      为了测试不同方法的性能,将多个图案数字地相加在一起以模拟由具有随机变化的强度的给定数量Nλ的非零波长分量构成的真实信号。将散斑图案的图像裁剪成各种ROI尺寸以实现不同的过采样和欠采样方案,如通过校准波长的总数Y与ROI的像素总数X的比率给出的。对于每个多模光纤,共生成30,000个图像作为训练数据集,其中29000个用于训练神经网络,其余1000个用于验证。对于最终评估,使用了额外的数据。


    Fig .3
    a)数值说明和b)使用DL针对不同采样率Y / X计算重建质量,对于Nλ= 1和Nλ= 10个非零波长。一个波长携带编码图像(笑脸),所有其他非零通道编码大写“X”的图像,由于串扰(见支持信息),它在低采样率下变得略微可见。 c)使用DL用于密集光谱(Nλ= 42)的图像重建的数字图示,其显示在42个波长信道中编码的14个RGB图像,第43个空白信道用于串扰控制。重建显示为欠采样Y / X = 0.84和过采样Y / X = 9.30方案。 d)对于不同的采样率,与地面实况的互相关作为频谱中非零波长数的函数。 (b,d)中的结果在整个纤维堆叠和每个纤维核心100个光谱上取平均值。亮区表示数据的标准偏差。 Y / X = 1处的虚线对应于奈奎斯特 - 香农采样限制。互相关为0.5的虚线表示阈值,低于该阈值,重建被认为是失败的。

    \color{red}{Results And Disscussion}

      DL方法的重建能力的直接数字说明如图3所示。在图3a,b中,显示了从过采样(Y / X = 9.30)到深度欠采样(Y / X = 0.21)的不同采样方案的性能。图3a中的漫画说明了重建的质量,其中笑脸表情被用作单个波长信道中的基础事实。对于单个非零波长Nλ= 1,这是光谱中包含的唯一信息。对于Nλ= 10的情况,频谱中的九个其他波长用大写字母“X”形式的划叉符号填充。我们看到,在两种情况下,目标的重建在过采样方案中非常好,而质量变得低于采样限制,Y / X <1。对于Nλ= 10,我们可以看到图像中十字架的外观,表明光谱通道之间存在明显的串扰。

      在图3b中给出了重建质量对采样率的这种依赖性的定量分析,其中重建的光谱与输入光谱(地面实况)的互相关相对于采样率Y / X绘制。我们可以清楚地看到图中确定的主要趋势,即过采样制度中的重建质量良好以及Y / X <1的性能下降。在欠采样方案中,我们看到重建对于较低数量的非零波长有所改善,对于仅一个非零波长,对于低至Y / X = 0.21的采样率,具有相当好的性能(定义为相关性> 0.5)。显然,DL能够在信息密度稀疏且分析反演技术显示完全崩溃的情况下推断出有意义的结果[22]。换句话说,DL能够跨越压缩感测方案,因此表现出与基于CS的方法类似的特性。

      已经在压缩感知方案中显示了DL的强度,在支持CS的稀疏性假设停止其有效性的条件下,研究其在密集信息方案中的能力是有意义的。我们再次从图3c中的数字图示开始,以可视化可通过散斑图像编码的信息量。使用Y = 43个可用波长信道,我们使用实验获得的传输矩阵分别编码14个独立RGB图像的红色,绿色和蓝色(RGB)信道。剩余的未使用波长信道允许评估残余串扰。原始RGB重建数据在支持信息中给出。

      图3c示出了在欠采样(Y / X = 0.84)或过采样(Y / X = 9.30)的情况下使用我们的DL方法获得的重建RGB图像。在过采样(Y / X> 1)的情况下,神经网络具有更多的输入信息以用于工作,这导致出色的图像重建质量和低残余串扰。对于欠采样方案,图像仍然是可辨别的,但具有显着的重建噪声和串扰。这些趋势在图3d的伴随分析中再次量化,显示了与地面实况的相互关系与非零波长的数量。我们看到网络输出在过采样情况下(完美重建)几乎完全相关,即使对于密集光谱也是如此,其中信号存在于所有波长信道中(Nλ= 43)。如图3c所示,为了增加波长数,欠采样的效果导致重建保真度的快速降低。


    Fig .4
    a)稀疏(三个顶行)和密集光谱(两个底行,由随机漫步算法生成)的散斑图像和重建光谱信息的示例。 左栏:Y / X = 9.3的过采样制度,右栏:Y / X = 0.58的欠采样制度。 散斑图案内的黑框显示了欠采样情况下使用的ROI。 b)比较来自1000个随机生成的稀疏(<50%稀疏度)和密集(所有波长非零)光谱的平均互相关的直方图,其通过深度学习(DL),Tikhonov正则化反演(TR)和压缩感测(CS)获得。

      在图4中,深度学习(DL)与TR和CS重建方法直接比较。在该基准中,从实验传输矩阵数值地生成1000个随机生成的光谱。图4a示出了对应于20×20像素的ROI的过采样情况(Y / X = 9.30),而图4b列示出了仅对应于5×5像素的欠采样情况(Y / X = 0.58)。示出了典型光谱的几个示例(蓝色破折号,地面实况),以及使用DL(红色),TR(橙色)和CS(浅蓝色)的相应重建。较低的两个示例对应于具有高密度光谱信息的连续光谱。

      图4c,d给出了1000个随机生成的光谱(地面实况)中的每一个与其各自重建之间的互相关的平均值的完全定量分析。在过采样制度中,所有方法都表现良好,相关值> 0.95。在欠采样方案中,TR完全失效(平均互相关<0.5),因为可以看出,无论光谱形状如何,所有情况都产生大部分平坦的光谱。 DL产生非常好的性能,甚至在欠采样情况下明显优于CS的密集光谱。

      在过采样情况下,与CS相比,DL的性能稍微弱一些,可以通过DL中的统计训练程序来解释,而另一方面,CS是一种分析方法,通常会产生接近最优的解决方案 - 但是要高得多与神经网络重建相比的计算成本,如下面进一步讨论的。在欠采样情况下,我们观察到DL倾向于产生比原始输入光谱更平滑的推断光谱,而CS导致光谱中更多的尖峰,即使输入是平滑的。

      之前的测试考虑了在完全没有噪声的情况下使用多光谱传输矩阵进行散斑重建。在现实生活中,可以预期图像中会出现一定程度的噪声,包括散粒噪声,电子相机噪声或其他非特定背景。成像系统还可能经历由环境影响引起的一些漂移,例如振动和热变化。为了评估针对典型扰动的不同方法的鲁棒性,我们在图5中比较了DL,CS和TR的相应性能。虽然CS和TR基于对变化本质上不灵活的分析方法,但DL具有通过选择训练数据允许某种程度的适应性的优点。


    Fig .5
    a)显示在噪声数据(DL + N)上训练的深度学习的重建质量(交叉相关)与压缩感测(CS)的10%附加噪声的比率的图。 蓝色表示DL + N优于CS,红色表示CS优于DL + N. 轮廓线表示DL + N斑点重建的互相关。 b)计算无噪声且存在25%噪声的互相关。 DL + S在大部分参数空间中优于CS,其中互相关<0.9。 c)重建对于随机方向上的一个像素的散斑图案的移位的稳健性。 d)计算的交叉相关没有移位和1像素的移位。 DL可以在包括移位(DL + S)的数据上进行训练,这使得该方法在这种情况下非常稳健,在很大程度上优于TR和CS。

      为了研究DL方法的适应性,我们使用噪声和空间移位的训练数据训练神经网络,目的是使其对这些效果更具鲁棒性。为了解释噪声的影响,我们将正常分布的随机强度噪声添加到散斑图案的每个像素。图5a示出了参数图,其示出了针对CS在有噪声数据(DL + N)上训练的DL的相对性能,其被量化为它们各自的交叉相关与输入光谱的比率。噪声适应DL在大参数空间上始终优于CS。蓝色区域表示出色的DL性能。对于Nλ> 15的相对密集光谱,DL总是表现更好。即使在彩色图的大多数“白色”部分中,DL也至少比一些百分比优于TR和CS(参见图5b中的条形图)。 CS在非常低的采样率下仅对稀疏数据执行得更好。此外,TR包含一个自由参数,必须根据经验调整该参数以匹配给定的噪声水平,以达到规定的性能[9]。在处理有噪声的频谱时,训练有噪声数据(DL + N)的神经网络优于正常DL。 DL + N神经网络的这种增加的适应性是以处理无噪声数据时相对较小的性能命中为代价的,如图5b所示。

      为了模拟空间漂移,裁剪的ROI在任意方向上随机移动一个像素。我们在图5c中比较了使用和不使用空间移位(DL + S)训练的网络的性能。如果在没有这种扰动数据的情况下训练神经网络,则DL的性能降低,就像传统方法TR和CS一样。然而,如果训练数据集包含相应的扰动数据,则DL在非完美散斑图像的重建中显示出明显的性能提升。在移位的情况下(图5c,d),相应训练的DL在扰动数据上显着优于其他技术,而在未移位数据上的性能损失相对较小。

      最后,除了其普遍适用性和卓越的稳定性之外,使用DL over CS的最重要的成就是其重建速度。因此,我们证明了我们基于深度学习的高光谱重建方法能够进行实时图像处理。为此,我们通过SLM将灰度视频投影到MCMMF上。在视频播放期间,我们使用AOTF随机改变照明波长。我们实时分析了每个核心的2700个散斑图案,由CMOS使用人工神经网络(每个光纤一个网络)捕获,这些网络经过预先训练并预先加载到RAM中。图6a示出了来自顶行中的原始视频数据的帧,以及来自底行中的谱重建的三个第一波长。在切换波长时,重建的图像改变信道,信道之间的串扰有限。在1.74s时,AOTF在帧采集期间被切换,短暂地产生两个光谱分量。我们注意到,与之前显示的合成数据相比,重建质量稍差,这是由于设置的非完美强度稳定性和较短(2.54cm)光纤中的一些杂散残余波长相关性。


    Fig .6
    a)通过DL实时基于斑点的高光谱视频重建。 使用幅度调制配置中的SLM将视频投影在光纤束上。 在回放期间,改变投射光的波长。 上:输入视频的原始帧。 底部:全多芯光纤(约2700个光纤纤芯)的前三个波长通道的光谱重建。 b)显示不同执行步骤的时序的条形图。 完整视频包含在本研究的支持材料中。 La Linea©CAVA / QUIPOS。

      在Nvidia Quadro P6000 GPU上,对2700个光纤核心网络的培训大约需要8个小时。这是一次性程序,因为散斑图案可以长时间保持稳定。高光谱图像重建本身是许多应用中的时间关键过程。经过训练的神经网络能够在Intel i7-3770 CPU上仅在132 ms内重建所有2700个光纤核心。相比之下,CS每帧需要大约2分钟来处理全纤维束。图6b显示了Intel i7-3770 CPU上DL高光谱图像重建步骤的持续时间,使用32GB RAM进行网络预加载。包括最终高光谱图像的预处理和渲染,处于其当前状态的算法可以每秒重建大约5个完整图像,这比我们的CMOS相机的总采集和传输时间(大约0.35s)更快。

      通过代码的性能优化,通过使用多CPU或多GPU平台,或通过开发网络的硬件实现,例如基于现场可编程门阵列(FPGA),进一步提高DL的重建速度有很大的余地[47] ]。在我们当前使用Python的实现中,更直接的硬件/软件通信可以将帧速率提高到5fps甚至更高,这超出了原理研究证明的范围。

    \color{red}{Conclusion}

      总之,我们已经证明,通过深度学习,多核多模光纤束可以用作实时高光谱相机,对噪声和空间移位具有鲁棒性。 使用与波长和纤维相关的散斑图案,我们使用深度学习以常规计算机硬件以每秒几帧的视频速率处理大量数据。 成像光谱仪和深度学习技术在设计上是通用的,校准的波长范围可以根据具体应用进行定制。 该方法可以通过多芯光纤束的长度和成像空间分辨率容易地缩放到任何数量的波长信道,达到所需的光谱分辨率。 深度学习与散斑光谱测量相结合,可实现具有实时数据处理功能的新型低成本,紧凑型高光谱成像系统。

    相关文章

      网友评论

          本文标题:Deep Learning Enabled Real Time

          本文链接:https://www.haomeiwen.com/subject/jwwlaqtx.html