美文网首页
[译] Adaptive Weighted Attention

[译] Adaptive Weighted Attention

作者: 晓智AI | 来源:发表于2020-11-02 15:16 被阅读0次

    题目:基于相机光谱灵敏度先验的自适应加权注意力网络用于RGB图像的光谱重建(CVPR2020 workshop)

    作者:李娇娇Jiaojiao Li(jjli@xidian.edu.cn),Chaoxiong Wu,Rui Song,Yunsong Li,Fei Liu

    摘要

    最近为光谱重建(SR)做出的有希望努力集中在通过使用更深和更广泛的卷积神经网络(CNN)来学习复杂的映射。然而,大多数基于CNN的SR算法忽略了探索相机光谱灵敏度(CSS)的先验以及中间特征之间的相互依赖性,从而限制了网络的表示能力和SR的性能。为了解决这些问题,本文提出了一种用于SR的新型自适应加权注意力网络(AWAN),该网络的主干上堆叠有多个双残差注意力块(DRAB),并用长短跳跃连接进行了装饰,以形成双重残差学习。具体而言,作者研究了一种自适应加权通道注意力(AWCA)模块,通过整合通道之间的相关性来重新分配通道特征响应。此外,开发了图像块级的二阶非局部(PSNL)模块以通过二阶非局部操作捕获远距离空间上下文信息,以实现更强大的特征表示。基于可以通过重构的高光谱图像(HSI)和给定的CSS函数映射恢复的RGB图像的事实,将RGB图像和HSI的差异作为更好的约束条件进行合并,以实现更准确的重构。实验结果证明,相对于其他最新SR方法,本文提出的AWAN网络在定量比较和感知质量方面是有效的。在NTIRE 2020光谱重建挑战赛中,本文的参赛作品在“Clean”赛道上排名第一,在“Real World”赛道上排名第三。可以从https://github.com/Deep-imagelab/AWAN获得代码。

    1.简介

    高光谱成像记录对象的反射率或透射率,并且所获取的高光谱图像(HSI)通常具有从红外光谱到紫外线光谱的多个光谱带。 丰富的光谱特征已被广泛用于各种任务,例如面部识别,图像分类和异常检测[24、20、27]。 然而,由于成像技术的局限性,捕获具有高空间/时间分辨率的包含大量光谱信息的HSI很费时间,因此不可避免地阻碍了HSI的应用范围。

    解决此问题的一种方法是开发基于压缩传感和计算重建的免扫描或快照高光谱设备,例如,计算机断层扫描成像光谱仪(CTIS)[9],混合RGB-HS系统[19]和孔径光罩[7]等等。然而,这些采集系统仍然依赖于昂贵的硬件设备。 另一种有效的方法是通过从给定的RGB图像中恢复丢失的光谱信息来生成此类HSI,定义为光谱重建(SR)或光谱超分辨率。 但是,由于HSI的数量可以投射到任何RGB输入,因此这种逆过程会造成严重不适定。 为了解决这个问题,已经提出了大量的SR方法,大致分为两类:早期的稀疏/浅层学习方法[3]和最近基于深度CNN的模型[12,4]。

    早期研究人员主要致力于从特定的高光谱先验构建稀疏编码或相对较浅的学习模型[25、3、15、1]以满足光谱超分辨率重建。然而,由于表达能力差和通用性有限,这些方法被限制在特定领域的图像上表现良好。近年来,由于CNN在许多计算机视觉任务中均取得了显著成功,因此还提出了一系列基于CNN的SR模型,以学习从单张RGB图像到其对应的HSI的映射函数[16、33、4、26, 28,32]。此外,SR采用了一种用于捕获远距离依赖关系的自注意力机制[22]。尽管在SR中已经实现了令人鼓舞的性能,但是基于CNN的现有方法仍然存在一些缺点。大多数基于CNN的SR方法致力于设计更深或更广的网络体系结构以获取更高级的特征表示,而缺乏对丰富上下文信息和中间特征之间相互依赖关系的探索,因此限制了CNN的判别性学习。此外,现有的基于CNN的SR模型总是完成复杂的RGB到HSI映射功能,很少考虑将相机光谱灵敏度(CSS)集成到SR中以进行更准确的重建。

    为了解决这些问题,本文提出了一种用于SR的新的深度自适应加权注意力网络(AWAN)。具体而言,AWAN网络的骨干架构由多个双残差注意块(DRAB)组成,其中长短跳跃连接形成了双残差学习,从而可以绕过大量的低频信息以增强特征相关性学习。此外,本文提出了一种可训练的自适应加权通道注意力(AWCA)模块,用于更好地建模通道相关性。AWCA模块通过利用自适应加权特征统计量而不是平均池化统计量来自适应地重新分配通道方式的特征响应。此外,为了获得更强大的特征表示,开发了patch图像块级的二阶非局部(PSNL)模块,以通过二阶非局部捕获远距离空间上下文信息。基于恢复的RGB图像可以通过使用已知的CSS函数生成HSI的事实,将RGB图像和HSI的差异进行合并作为更好的约束条件,以进行更准确的重建。如图1所示,与其他不同的SR方法相比,本文的方法可获得更精确的HSI和更好的重建质量。

    本文的主要贡献可以概括如下:
    1.提出了一种新颖的用于SR的深度自适应加权注意力网络(AWAN)。 实验结果证明了所提出的AWAN在定量比较和感知质量方面的有效性。 在NTIRE 2020光谱重建挑战赛[5]中,参赛作品在“Clean”赛道上获得第一名,仅比“Real World”赛道上的第一名多1.59106e-4获得第三名。

    2.作者提出了一种自适应加权通道注意力(AWCA)模块,以通过利用自适应加权特征统计信息(而不是平均池化特征统计信息)来自适应地重新校准通道特征响应。 这样的AWCA模块允许网络有选择地强调信息特征并增强判别能力。

    3.作者开发了图像块级的二阶非局部(PSNL)模块,以通过二阶非局部操作捕获远距离空间上下文信息,以实现更强大的功能表示。

    4.通过将RGB图像和HSI的差异作为更好的约束条件,可以将CSS函数先验集成到SR损失过程中,以进行更准确的重建。

    2.相关工作

    在过去的几年中,已经提出了越来越多的SR算法,包括特定的采集系统[19,7],稀疏/浅层学习方法[25,3,15,1]和基于CNN的模型[12,33,11,23,4,26,34,28,6,2,18]。 在这里,我们总结了一些基于CNN的SR工作和注意力机制,但由于篇幅所限,并未一一列举。
    [12] Silvano Galliani, Charis Lanaras, Dimitrios Marmanis, Emmanuel Baltsavias, and Konrad Schindler. Learned spectral super-resolution. arXiv preprint arXiv:1703.09470, 2017.
    [33] Yiqi Yan, Lei Zhang, Jun Li, Wei Wei, and Yanning Zhang. Accurate spectral super-resolution from single rgb image using multi-scale cnn. In Chinese Conference on Pattern Recognition and Computer Vision (PRCV), pages 206–217. Springer, 2018.
    [11] Ying Fu, Tao Zhang, Yinqiang Zheng, Debing Zhang, and Hua Huang. Joint camera spectral sensitivity selection and hyperspectral image recovery. In Proceedings of the European Conference on Computer Vision (ECCV), pages 788–804, 2018.
    [23] Shijie Nie, Lin Gu, Yinqiang Zheng, Antony Lam, Nobutaka Ono, and Imari Sato. Deeply learned filter response functions for hyperspectral reconstruction. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4767–4776, 2018.
    [4] Boaz Arad, Ohad Ben-Shahar, and Radu Timofte. Ntire 2018 challenge on spectral reconstruction from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 929–938, 2018.
    [26] Zhan Shi, Chang Chen, Zhiwei Xiong, Dong Liu, and Feng Wu. Hscnn+: Advanced cnn-based hyperspectral recovery from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 939–947, 2018.
    [34] Lei Zhang, Zhiqiang Lang, Peng Wang, Wei Wei, Shengcai Liao, Ling Shao, and Yanning Zhang. Pixel-aware deep function-mixture network for spectral super-resolution. arXiv preprint arXiv:1903.10501, 2019.
    [28] Tarek Stiebel, Simon Koppers, Philipp Seltsam, and Dorit Merhof. Reconstructing spectral images from rgb-images using a convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 948–953, 2018.
    [6] Yigit Baran Can and Radu Timofte. An efficient cnn for spectral reconstruction from rgb images. arXiv preprint arXiv:1804.04647, 2018
    [2] Aitor Alvarez-Gila, Joost Van De Weijer, and Estibaliz Garrote. Adversarial networks for spatial context-aware spectral image reconstruction from rgb. In Proceedings of the IEEE International Conference on Computer Vision, pages 480–490, 2017.
    [18] Sriharsha Koundinya, Himanshu Sharma, Manoj Sharma,Avinash Upadhyay, Raunak Manekar, Rudrabha Mukhopadhyay, Abhijit Karmakar, and Santanu Chaudhury. 2d-3d cnn based architectures for spectral reconstruction from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 844–851,2018.

    基于CNN的SR模型。近年来,基于CNN的SR方法已经得到了广泛的研究和发展,其中CNN在计算机视觉任务中取得了巨大的成功。通常,这些方法将SR公式化为图像到图像的回归问题,并学习从三维RGB像素值到高维高光谱信号的深度映射函数。最初,Galliani等[12]和Xiong等人[32]训练了用于SR的端到端CNN,取得了空前的成果。后来,Arad等人[4]组织了NTIRE 2018光谱重建挑战赛,并提出了许多出色的算法。例如,Shi等人[26]提出了一个深度残差网络HSCNN-R,它由自适应残差块组成。为了进一步提高性能,他们设计了基于密集连接结构和新颖融合方案的更深层HSCNN-D模型。 Stiebel等人[28]从语义分割中引入了改进的U-net来完成这项任务,并在光谱重建比赛中获得了第四名。为了增加网络学习像素映射的灵活性,Zhang等人[34]使用一个像素感知的深层功能混合网络完成了RGB到HSI的映射,该网络由几个功能混合块组成。

    注意力机制。总的来说,注意力机制可以看作是重新分配可用信息并关注图像的显著成分的工具[29],它在当前的计算机视觉社会中已经发挥了重要作用,例如视频分类,超分辨率以及场景分割[30,8,10]等。尤其是Xia等人[31]提出了一种新的空间域关注模块,该模块将非局部操作与CNN中的二阶统计信息相结合,以直接提取上下文相关性以进行行人重识别并获得出色的性能。由于在整个图像中实现非局部操作非常耗时,因此我们开发了图像块级的二阶非局部(PSNL)模块来减轻计算负担。 Hu等人[14]提出了一种在通道域中的提取和激励(SE)块,以对通道级特征相关性进行建模用于图像分类。但是,此注意模块通过利用全局平均池统计信息来自适应地重新分配通道方式的特征响应,表明它在不考虑空间重要性程度不同的情况下,在空间位置上均等对待,从而阻碍了CNN的表示能力。因此,我们通过探索自适应加权特征统计量以获得更强的特征表示,提出了一种新型的深度自适应加权注意网络(AWAN)。

    3.本文所提方法

    3.1 网络结构

    所提出的AWAN的总体架构如图2所示。首先,我们使用一个单独的卷积层从RGB输入中提取浅层特征。然后,我们堆叠M个双重残差注意力块(DRAB),以形成用于深度特征提取的深度网络。为了消除非常深的网络中的梯度消失和爆炸问题,采用了全局残余连接。每个DRAB都由一个基本残差模块[13]和具有大(5×5)和小尺寸(3×3)内核的附加成对卷积运算组成,其中长短跳跃连接在该块中形成双重残差学习。这种残差结构中的残差类型通过增加基本残差块之间的交互来充分利用成对操作的潜力。而且,这样的模块可以允许原始RGB图像的丰富的低频信息被绕开并被充分利用,这极大地增强了特征相关性学习。与工作[21]不同,本文未应用批量归一化,因为归一化限制了网络的强度,无法学习光谱分布与SR任务的局部空间强度之间的相关性,这会进一步降低其对在恒指的强度范围内变化的鲁棒性。此外,我们选择参数整流线性单位(PReLU)而不是ReLU作为激活函数,以引入更多的非线性并加速收敛。


    图2.png

    3.2 Adaptive Weighted Channel Attention (AWCA)

    提取中间特征之间的相互依赖关系对于增强CNN的判别学习能力是必不可少的。 提出的SE块[14]通过显式建模通道之间的相互依赖性来自适应地重新校准通道级的特征响应。然而,它通过在压缩过程中利用全局平均池化统计信息,平等地对待空间位置,从而阻止了CNN的表示能力。为了获得更强大的特征相关学习,提出了一种自适应加权通道注意力(AWCA)模块,通过探索自适应加权特征统计信息来选择性地强调信息特征。

    中间层特征图组为F=[f_1,f_2,...,f_3],包含通道CH\times W大小的特征图并且重塑FR^{C\times(H\times W)}。我们利用一个权重矩阵Y=R^{(H\times W)\times 1}。然后采用一个softmax层将Y归一化并且与F相乘,即自适应权重池化H_{AWP}(\cdot),得到Z=H_{AWP}(F),其中Z=[z1,z2,...,z_c](Z\in R^{C\times 1})是通道级的描述子。随后设下降比为t,经过W_1权重输出大小为R^{(c/t)\times 1\times 1},经过W_2权重输出大小为R^{C\times 1\times 1},最终通道映射图计算为V=\delta(W_2(\sigma(W_1(Z)))),其中\delta(\cdot)和\sigma(\cdot)分别代表Sigmoid和ReLU激活函数,然后我们分配通道特征图V=[v_1,v_2,...,v_c]重新调整输入Fv_c和f_c是缩放因子和c层的特征通道,E=[e1,...,e_c]是AWAC模块的输出特征图。AWCA模块嵌入到所提出的DRAB模块中,可以调整逐通道特征自适应地重新校准,以增强网络的代表性学习。

    AWAN

    3.3 图像块级的二阶非局部(PSNL)块

    本文提出了非局部神经网络模块[30]来捕获整个图像的远距离依赖性。 同时,最近的工作[8,31]指出,二阶统计量是一种用于CNN更具区别性表达的有效工具。 但是,非局部操作需要巨大的计算负荷。 为了同时降低计算成本和建模远距离关系,开发了图片块级的二阶非局部(PSNL)模块。 图4描述了PSNL模块。 给定一个特征图F\in R^{C\times H\times W},将其分为四个子特征图F_k\in R^{C\times h\times w}(k = 1,2,3,4; h = H / 2; w = W / 2) 空间维度,每个维度都由后续的PSNL模块处理。

    图4
    获得的新特征图S_k = \phi(U_k)+F_k包含丰富的空间上下文信息。将PSNL模块加载AWAN的尾部。

    3.4 相机光谱灵敏度先验

    先前已有的基于CNN的SR模型始终适合于蛮力RGB到HSI的映射,并且几乎不考虑将相机光谱灵敏度(CSS)集成到SR中以进行更准确的重建。 基于可以通过将给定的CSS函数应用于重构的HSI来创建恢复的RGB图像的事实,我们将RGB图像的差异和HSI的差异作为更好的约束条件。 因此,我们的损失函数是两项的线性组合:
    l=l_h+\tau l_r
    l_h=\frac{1}{N}\sum_{p=1}^{N}(|I_{HSI}^{(p)}-I_{SR}^{(p)}|/I_{HSI}^{(p)})
    l_r=\frac{1}{N}\sum_{p=1}^{N}(\Phi(|I_{HSI}^{(p)})-\Phi(I_{SR}^{(p)}))
    其中\tau是均衡参数取10,其中I_{HSI}^{(p)}I_{SR}^{(p)}代表第p个像素值,\Phi代表相机光谱灵敏度函数,N是像素总数。

    4.实验

    4.1 高光谱数据集

    本文在两个具有挑战性的光谱重建挑战赛数据集上评估了AWAN网络:NTIRE2018 [4]和NTIRE2020 [5]。这两个挑战赛都分为两个轨道:“Clean”和“Real World”。 “Clean”赛道旨在从已知CSS函数获得的无噪声RGB图像中恢复HSI,而“Clean”轨道要求参赛者从未知相机响应函数创建的JPEG压缩RGB图像中重建HSI。请注意,相同赛道的CSS函数也不同。因此,在这两个挑战中,总共有四个已建立的SR基准。 NTIRE2018数据集包含256个用于训练的自然HSI和5 + 10个用于验证和测试的额外图像。所有图像的空间大小均为1392×1300,并具有31个光谱带(400-700nm,大约以10nm的增量递增)。 NTIRE2020数据集包含450幅用于训练的图像,10幅用于验证的图像和20幅用于测试的图像,其空间分辨率为512×482,光谱带数也是31。

    评估指标。 为了客观地评估本文提出的方法在NTIRE2020和NTIRE2018数据集上的性能,根据挑战赛提供的评分脚本,将均方根误差(RMSE)和平均相对绝对误差(MRAE)用作评估指标。 选择MRAE作为排名标准,而不是RMSE,以避免在测试图像的较高亮度区域中出现过重错误。

    实现细节。 我们设计DRAB数量M = 8,输出通道数200。在训练过程中,我们从原始数据集中设置了64×64 RGB和HSI样本对。 我们模型的批量大小为32,参数优化算法选择Adam [17],其β1= 0.9,β2= 0.99和\epsilon= 10^{-8}。 AWCA模块的缩减比t值为16,PSNL模块的r值为8。将学习率初始化为0.0001,并将多项式函数设置为幂= 1.5的衰减策略,在100个epoch停止网络训练。 本文提出的AWAN网络已在Pytorch框架上实现,并且在2个NVIDIA 2080Ti GPU上的培训时间约为36小时。

    4.2 消融实验

    为了验证不同模块的效果,本文对NTIRE2020“Clean”和“Real World”轨道进行了消融研究。 表1列出了详细的实验结果。Ea和Ef指的是堆叠有8个DRAB的基线网络,该网络仅包含大量普通的卷积层。

    图像块级的二阶非局部(PSNL)。 从表1中可以看出,基线结果分别在两个赛道上达到MRAE = 0.0359和MRAE = 0.0687。 如第3.3节所述,提出的AWAN的尾部附加PSNL模块,以通过二阶非局部操作获取远距离依赖关系。 与基线结果相比,Eb和Eg证明了建模远距离关系的有效性。

    自适应加权通道注意力(AWCA)。 在基线网络的基础上,我们进行了另一个实验来检查AWCA模块的效果。 Ec和Eh的结果使MRAE指标比NTIRE2020 “Clean”和“Real World”赛道的基线结果分别降低了5.0%和2.2%。 主要原因在于,AWCA模块自适应集成了通道方式的相互依赖关系,以实现更强大的功能关联学习。 之后将PSNL和AWCA模块结合在一起,以进一步加强网络的判别式学习。 Ed和Ei的实验结果表明,使用这两个模块可以实现更出色的性能。

    相机光谱灵敏度(CSS)先验。 Ea至Ed的实验和Ef至Ei的实验均通过随机梯度下降算法(第3.4节中的单个MRAE损失项为1h)进行了优化。 由于CSS功能在“Clean”赛道中是已知的,而在“Real World”赛道中是未知的,因此我们只能在“Clean”轨道中将CSS事先引入AWAN网络中。 Ee意味着我们将MRAE损失项lh和CSS约束lr的线性组合用作最终损失函数,并表明CSS先验的合并对提高频谱重建的准确性很有用。

    结果

    为了测试本文提出的网络的优越性,将算法与六种最新方法进行了比较,包括Arad [3],Galliani [12],Yan [33],Stiebel [28],HSCNNR [26],和HSCNN-D [26]。表2和表3列出了NTIRE2020和NTIRE2018“Clean”和“Real World”赛道的验证集的数值结果。和[26]中一样,我们还采用表示为AWCA +的多模型集成方法。对于NTIRE2020“Clean”赛道,还训练了另外三种模型,其中一种模型具有8个DRAB和200个输出通道,而两个模型具有20个DRAB和128个输出通道。对于NTIRE2020“Real World”赛道,首先对单个AWAN网络采用自集成方法,将RGB输入上/下翻转以获取镜像输出,然后将镜像输出和原始输出平均为目标结果。训练了另外两个具有8个DRAB和200个输出通道的模型以及一个具有10个DRAB和180个输出通道的模型以进行多模型集成训练。对于NTIRE2018数据集,执行与NTIRE2020“Real World”赛道相似的自集合方法。另外,“Clean”轨道上还有另外两个具有8个DRAB和200个输出通道的模型,另外两个模型是“Real World”上的具有10个DRAB和200个输出通道的模型。从表2和表3中可以看出,我们的单个模型优于其他比较方法,并且我们的方法通过模型集成策略进一步提高了SR的性能。最后,我们的参赛算法在“Clean”轨道的官方测试集上获得第一名,仅比NTIRE 2020光谱重建挑战赛中“Real World”轨道上的第一名多1.59106e-4(请参阅表4和表5)。应该注意的是,我们仅列出了前5种方法。

    [3] Boaz Arad and Ohad Ben-Shahar. Sparse recovery of hyperspectral signal from natural rgb images. In European Conference on Computer Vision, pages 19–34. Springer, 2016.
    [12] Silvano Galliani, Charis Lanaras, Dimitrios Marmanis, Emmanuel Baltsavias, and Konrad Schindler. Learned spectral super-resolution. arXiv preprint arXiv:1703.09470, 2017.
    [33] Yiqi Yan, Lei Zhang, Jun Li, Wei Wei, and Yanning Zhang.Accurate spectral super-resolution from single rgb imageusing multi-scale cnn. In Chinese Conference on Pattern Recognition and Computer Vision (PRCV), pages 206–217.Springer, 2018.
    [28] Tarek Stiebel, Simon Koppers, Philipp Seltsam, and Dorit Merhof. Reconstructing spectral images from rgb-images using a convolutional neural network. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 948–953, 2018.
    [26] Zhan Shi, Chang Chen, Zhiwei Xiong, Dong Liu, and Feng Wu. Hscnn+: Advanced cnn-based hyperspectral recovery from rgb images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pages 939–947, 2018.

    视觉结果。 为了评估SR结果的感知质量,本文在图5,图6和图7中显示了一些视觉重建的HSI和不同方法的相应误差图。从这些图中可以看到本文方法相比于其他方法产生了更好的恢复结果和更高的重建保真度。 另外还绘制了图8中的光谱响应曲线。显然本文提出的方法的结果更准确,更接近于真值HSI。

    结论

    在本文中提出了一种用于SR的深度自适应加权注意力网络(AWAN)。 具体来说,提出了一个图像块级的二阶非局部(PSNL)模块,以通过二阶非局部操作捕获远距离区域相关性。 此外,提出了一种可训练的自适应加权通道注意(AWCA)模块,通过利用自适应加权特征统计量来自适应地重新校准逐通道特征响应。 为了进一步提高SR的准确性,本文先介绍了相机光谱灵敏度(CSS),并将RGB图像和HSI的差异作为更好的约束条件。 具有挑战性的基准测试结果证明了我们的AWAN网络在数值和视觉结果方面的优越性。

    论文笔记:

    1. 论文背景

    本文属于解决问题型论文,关于从RGB图像中进行高光谱图像重建。由于成像技术所限,捕获高光谱图像很费时间,实时系统设备昂贵,因此有效的方法是从RGB图像中重建高光谱图。目前很多方法忽略了相机光谱灵敏度先验(CSS)限制了SR效果。

    现有的CNN方法致力于设计更深和更广的网络体系结构以获取更高级的特征表示,缺乏对丰富的上下文信息和中间特征间相互依赖关系进行探索,不能有效捕获远距离空间上下文信息,限制了CNN学习和表征能力。目前已提出的non-local非局部模块用于通过全图捕获远距离依赖关系,但是计算量较大。

    1. 论文贡献

    本文所提出的网络结构AWAN由M个双残差注意力块DRAB堆叠组成,每个DRAB由基本残差模块和conv 3x3和conv 5x5组成,形成了模块内双残差连接。这种形式的残差结构充分利用了成对操作的潜力增强基本残差块的相互作用。

    提出自适应加权通道注意力AWCA模块,通过利用自适应加权特征统计量,建模通道间的相关性,自适应地重新分配通道方式。输入特征F经过conv 1x1重塑reshape为R^{(H\times W)\times 1}然后归一化Normalize得到Y并与F相乘,这一过程为自适应权重池化过程H_{AWP}。采用简单的门运算机制将得到的feature特征经过2个conv 1x1 W_1W_2,得到V=\delta(W_2(\sigma(W1(Z))))。用重组得到的channel attention map重新调节输入F,得到最后的输出e_c = v_c \times f_c。将AWCA嵌入到所提出的DRAB模块可以重新校准通道级channel-wise特征,增强网络的特征学习能力。

    为降低模型计算量同时建模远距离联系,本文提出了图像块级patch-level二阶非局部模块,加在AWAN网络结构的尾部。输入特征图F分成4块,F_k\in R^{C\times h\times w},分别经过两个conv 1x1,输出通道为C/r的卷积层,转置得到R^{(h\times w)\times C/r},从B卷积得到结果需要进行矩阵运算X=B\overline{I}B^T,其中I为单位矩阵,得到的X即为空间注意力图。B和D通道特征进行矩阵相乘运算U_k=softmax(X_k)D_k,最后得到结果为S_k=\phi(U_k)+F_k

    根据已有的RGB可以由CSS重建得到HSI这一事实,避免了RGB-HSI暴力映射的方法,损失函数由两项组成,l=l_h+\tau l_r,\tau为权重系数

    1. 论文实验

    使用了NTIRE2018和NTIRE2020数据集,450张图像用于训练,10张图像用于验证,20张图像用于测试,图像大小为512 x 482。测试指标为平均相对绝对误差MRAE,参考指标为RMSE。

    表1消融实验说明,在baseline的8个DRAB基础上增加额外模块的有效性,同时加入PSNL,AWAC和CSS时MRAE指标最好。表2和表3证明了本文提出的方法比目前最好的5种方法效果更好。

    图5,图6,图7是将第22层,15层,24层光谱带的HSI重建错误的可视化结果。热力图代表真值和重建HSI结果之间的MRAE。

    图8是绘制的光谱响应曲线,由此可见所提方法重建准确度更高。

    相关文章

      网友评论

          本文标题:[译] Adaptive Weighted Attention

          本文链接:https://www.haomeiwen.com/subject/stjkvktx.html