论文名称及作者信息:https://ieeexplore.ieee.org/document/8578522/citations?tabFilter=papers#citations
摘要
卷积神经网络依靠图像的纹理和结构来作为区分图像内容的判别特征。 图像增强技术可以用作预处理步骤,以帮助改善整体图像质量,进而改善CNN的整体效果。 然而,现有的图像增强方法被设计用于改善人类观察者的图像的感知质量。 在本文中,我们对学习可以模拟图像增强和还原的CNN感兴趣,但其总体目标是改善图像分类,而不一定是人类的感知。 为此,我们提出了一个统一的CNN架构,该架构使用一系列增强过滤器,这些过滤器可以通过端到端动态过滤器学习来增强特定于图像的细节。 我们针对细粒度,对象,场景和纹理分类的四个具有挑战性的基准数据集证明了该策略的有效性:CUB-200-2011,PASCAL-VOC2007,MIT-Indoor和DTD。 使用我们提出的增强功能的实验在所有数据集上均显示出令人鼓舞的结果。 此外,我们的方法能够改善所有通用CNN架构的性能。
1、简介
图像增强方法通常用作预处理步骤,可用于在更高级别的视觉任务(例如分类和对象识别)之前提高图像的视觉质量[28,29]。 示例包括增强功能,以消除模糊,噪点,对比度差和压缩伪影的影响,或增强图像细节。 这种增强方法的示例包括高斯平滑,各向异性扩散,加权最小二乘(WLS)和双边滤波。 这样的增强方法不是简单的滤波器操作(例如3×3 Sobel滤波器),而是通常涉及复杂的优化。 实际上,这些方法的运行时间很昂贵,对于高分辨率图像可能要花费几秒钟甚至几分钟。
最近的一些工作表明,卷积神经网络(CNN)[2、3、23、27、39、40]可以通过对输入和目标输出图像对进行训练来成功地模拟广泛的图像增强。 这些CNN通常在运行时性能方面具有显着优势。然而,当前的策略是训练这些基于CNN的图像滤镜以近似其非CNN对应物的输出。
在本文中,我们建议扩展基于CNN的图像增强训练,以纳入图像分类的高级目标。 我们的贡献是一种可以共同优化CNN进行增强和图像分类的方法。 我们通过动态卷积在图像基础上自适应增强特征来实现此目的,这使增强CNN可以仅选择性地增强那些导致改进图像分类的特征。
由于我们了解选择性特征增强的关键作用,因此我们建议使用动态卷积层(或动态滤波器)[7]来动态增强具有分类目标的特定于图像的特征(见图1)。 我们的工作受到[7]的启发。 然而,尽管[7]应用动态卷积模块使用输入-输出图像对将角度转换为滤波器(可控滤波器),但我们使用了与[7]相同的术语。 动态滤镜是输入的函数,因此在训练/测试期间每个样本都会变化,这意味着以特定于图像的方式进行图像增强以增强纹理图案或锐化边缘以进行区分时。 具体来说,我们的网络学习应应用于输入图像的各种增强滤镜的数量,以便增强的表示形式在分类精度方面提供更好的性能。 我们针对四个具有挑战性的基准数据集对我们提出的方法进行了评估,分别针对细粒度,对象,场景和纹理分类:CUB-200-2011 [37],PASCALVOC2007 [12],MIT-Indoor [26]和DTD [4] 。 我们的实验表明,当CNN与提出的动态增强技术(第3.1和3.3节)结合使用时,可以在所有数据集上持续改善普遍CNN体系结构的分类性能。 此外,我们的实验证明了所提出方法的全部功能,并且与最新技术相比显示出可喜的结果。
2、背景和相关工作
在使用CNN架构消除模糊[2],噪声[27]和压缩伪像[38]的开发过程中,已经看到了可观的进步。 为了获得清晰的图像,扭转这些退化的影响是当前研究的一个活跃领域[2,22,39]。 所研究的CNN框架[2、3、15、22、23、27、39、40]通常基于简单的策略来构建网络,方法是通过使用输入输出图像对最小化全局目标函数来训练网络。 这些框架鼓励输出与目标图像具有相似的结构。 在训练了CNN之后,已经提出了一种类似的方法将细节转移到新图像中[39]。 这些框架充当专门针对特定增强方法的过滤器。
例如,徐等 [39]学习了一个CNN体系结构,可以从输入输出图像对中近似现有的边缘感知滤波器。 Chen等。 [3]学习了一种使用更深,更上下文感知的参数化近似端到端几种图像处理操作的CNN。 严等。 [40]学习CNN近似图像变换以进行图像调整。 Fu等。 [15]学习一种CNN架构,以去除图像中的雨水条纹。 对于CNN训练,作者使用多雨且干净的图像细节层对,而不是常规的RGB图像。 Li等。 [22]提出了一种使用三种CNN架构的基于学习的联合滤波器。 在Li等人的工作中,两个子网分别获取目标图像和引导图像,而第三个网络则选择性地传输主要内容结构并重建所需的输出。 Remez等。 [27]提出了一种完全卷积的CNN体系结构,以使用图像先验即类感知信息对图像进行去噪。 最接近我们的工作是Chakrabarty等人。 [2]和刘等。 [23]。 Chakrabarty等。 提出了一种CNN体系结构来预测去卷积滤波器的复数傅里叶系数,该滤波器应用于单个图像斑块进行恢复。 Liu等人使用CNN + RNN学习增强过滤器; 在这里,我们仅将CNN用于学习过滤器。 我们的方法为每种方法产生一个代表性的滤波器,而它们为每种方法产生四向定向传播滤波器。 像其他人一样,他们的工作也用于类似于[2,3]的低级视觉任务,而我们的目标是增强分类能力。 与这些先前的工作相比,我们的工作在范围和技术方法上有很大不同。 我们的目标是通过分类目标来近似不同的图像增强滤波器,以便从增强技术中选择性地提取信息特征以改善分类,而不必近似于增强方法。
与我们的目标相似的是作品[6,9,19,25,35,36],作者还试图改善退化效果以进行准确分类。 Dodge和Karam [9]分析了模糊,噪声,对比度和压缩如何阻碍ConvNet架构用于图像分类的性能。 他们的发现表明:(1)ConvNets对模糊非常敏感,因为模糊会消除图像中的纹理; (2)噪声会对性能产生负面影响,尽管更深的架构的性能下降得较慢; (3)深度网络可以抵抗压缩失真和对比度变化。 Karahan等人的研究。 [19]报告了面部识别任务的类似结果。 乌尔曼等。 [35]表明,人类几乎察觉不到的图像微小变化会对计算识别精度产生巨大影响。 Szegedy等。 [32]表明,施加不可察觉的非随机扰动会导致ConvNets产生错误的预测。
为了帮助减轻这些问题,Costa等人。 [6]为增强训练集的每个嘈杂版本设计了单独的模型。 这在一定程度上改善了噪声数据的分类结果。 Peng等。 [25]探索了联合培训低分辨率和高分辨率图像的潜力,以提高低分辨率输入的性能。 与[25]相似的是Vasijevic等[36]的工作,其中作者通过降级来增强训练集,并使用不同类型的降级和高质量图像的多种混合来微调网络,以重新获得大部分图像。 实际上,使用这种方法,作者能够学会在其隐藏层中生成退化(尤其是模糊)不变表示。
与以前的作品相比,我们使用没有伪像的高质量图像,并共同学习ConvNet来增强图像,以改善分类的目的。
3、提出的方法
如前所述,我们的目标是学习一个动态图像增强网络,其总体目标是改善分类,而不必具体地近似增强方法。 为此,我们提出了本节中描述的三种CNN架构。
我们提出了第一个架构,以端到端的方式(第3.1节)为每种增强方法学习单个增强过滤器,而通过端到端,我们意味着将在具有动态过滤器的唯一深度网络中增强和识别每个图像。 。 我们的第二个体系结构使用了第一个体系结构中预先学习的增强过滤器,并在CNN中以加权方式将它们组合在一起。 没有调整过滤器的权重(第3.2节)。 在我们的第三个体系结构中,我们显示了多个增强过滤器的端到端联合学习(第3.3节)。 我们还会在CNN中以加权方式将它们合并。 所有这些设置均与分类目标共同优化,以选择性地增强图像特征质量以改善分类。 在网络训练中,使用图像级别的类标签,而用于测试输入图像可以具有多个标签。
3.1、动态增强滤波器
在本节中,我们将描述模型,以端对端学习方法从输入和目标输出增强图像对中学习用于不同增强方法的代表性增强滤波器,以提高分类性能。 给定输入的RGB图像I,我们首先将其转换为亮度色度Y CbCr颜色空间。 我们的增强方法适用于RGB图像的亮度分量[14]。 这使我们的滤镜可以在不影响色彩的情况下修改图像的整体色调特性和清晰度。 然后将亮度图像Y∈Rh×w用图像增强方法E:Y→T进行卷积,得到增强的目标输出亮度图像T∈Rh×w,其中h和w表示对象中的高度和宽度。 分别输入Y。 我们为预处理步骤生成了一系列增强方法E的目标图像(更多信息请参见第4.2节)。 为了生成过滤器,我们明确地一次仅使用一种增强方法的数据集来学习转换,该方案如图2所示。
第一阶段(增强阶段):增强网络(EnhanceNet)受[7、18、20]的启发,由卷积层和完全连接层组成。 EnhanceNet将输入映射到过滤器。 增强网络获取一个通道的亮度图像Y并输出滤波器fΘ,Θ∈R s×s×n,其中Θ是增强网络动态生成的变换的参数,s是滤波器大小,n是个数 滤波器的数量,对于一个通道亮度图像来说,单个生成的滤波器等于1。 将生成的滤波器应用于每个空间位置(i,j)的输入图像Y(i,j),以输出Y'∈R的预测图像Y'(i,j)=fΘ(Y(i,j)) 高×宽 滤镜特定于图像,并以Y为条件。 为了生成增强滤波器参数Θ,使用目标图像T和网络的预测输出图像Y'之间的均方误差(MSE)对网络进行训练。 注意,滤波器的参数是作为EnhanceNet的输出获得的,EnhancedNet将输入映射到滤波器,因此从一个样本到另一个样本会有所不同。 为了将重建图像Y'与理想T进行比较,我们使用MSE损失作为图像质量的度量,尽管我们注意到可以使用更复杂的损失函数[10]。
然后将色度分量重新组合,并将图像转换回RGB I'。 我们发现滤镜了解了预期的变换并将正确的增强应用于图像。 图5显示了动态增强的图像纹理的定性结果。
图5:定性结果:CUB。 对于所有增强方法,使用方法1(第3.1节)获得的目标图像T,增强的亮度图像Y'和差异图像的补码(diff = T-Y')之间的比较。第二阶段(分类阶段):将阶段1的预测输出图像I'作为输入输入到分类网络(ClassNet)。 由于分类网络(例如,Alexnet [21])在最后一个卷积层和分类层之间具有完全连接的层,因此在微调预卷积层时,将学习完全连接层和C路径分类层的参数。 训练有素的网络。
端到端学习:具有1-2个损失函数的第1-2级级联-MSE(增强)和softmax-loss L(分类)-通过使用ClassNet和EnhanceNet中的梯度的端到端传播来实现联合优化 SGD优化器。 整个管道的总损失函数由下式给出:
image.png
其中,a是ClassNet的最后一个完全连接层的输出,该输出被馈给C向softmax函数,y是图像I的真实标签的向量,C是类的数目。
我们对整个滤波过程进行微调,直到收敛为止,从而在动态增强层中学习到增强过滤器。 联合优化允许损耗类从ClassNet到通过EnhanceNet反向传播,从而使滤波器参数也针对分类进行了优化。
3.2、静态分类滤波器
在这里,我们展示了如何整合从第一种方法获得的预先学习的增强滤波器。 对于训练集中的每个图像,我们使用第一种方法获得动态滤镜。 静态滤波器是通过取所有这些动态滤波器的平均值来计算的。 将提取的静态滤波器与RGB图像I的输入亮度Y分量进行卷积,并添加色度分量,然后将图像转换回RGB I',然后将其馈送到分类网络中。 图3显示了整个体系结构的示意图。
第一阶段(增强阶段):我们首先提取从第一种方法中学到的K图像增强方法的预训练滤波器。 给定输入亮度图像Y,将这些fΘ,k滤波器与输入图像进行卷积,以生成Y'k增强图像就像
我们还包括一个恒等滤波器(K + 1)生成原始图像,因为某些学习到的增强效果可能会比原始图像本身更差。 然后,我们研究了两种加权Wk增强方法的策略:(1)给出相等的权重,其值等于1 / K,(2)根据MSE给出权重,如3.3中所讨论。
该阶段的输出是一组增强的亮度图像及其相应的权重,这些权重指示了推送到分类流水线下一阶段的潜在重要性。 然后将色度重新组合,并将图像转换回RGB I'k。
第二阶段(分类阶段):将用于K种图像增强方法的增强图像I'k和原始图像依次作为输入依次输入到分类网络,其中类别标签及其权重Wk表示增强图像的重要性。 输入图像。 与最后一种方法类似,在端到端学习方法中,使用预训练网络对全连接层和C-way分类层的网络参数进行微调。
端到端训练:网络训练的损失是各个softmax损失Lk项的加权Wk和。 加权损失为:
是代表K增强方法重要性的权重,其中WK+1 = 1对于原始RGB图像,造成整个管道的总损耗。
3.3 多个用于分类的动态过滤器
在这里,我们回顾第3.1-3.2节中架构。图4显示了整个架构的示意图。 我们的体系结构使用了Sec中提出的类似体系结构。 3.1; 我们使用K个增强网络动态生成K个滤波器,每种增强方法一个。 在该提出的架构中,与阶段1相关联的损耗是预测输出图像Y'K 与目标输出图像TK 之间的MSE。
为了计算每种增强方法的权重,将增强图像的MSE通过将它们的相对强度进行比较,将其转换为权重Wk:Wk = MSEk / Pk m=1MSEm,然后是Wk=(Wk-max(W))/(min(W)-max(W))。 由于现在min(W)为零,为了避免对其中一种增强方法赋予零权重,我们从W中减去second min(W)/2,然后将min-W添加到Wk和min(W)中。 最后,在所有K个方法的权重之和应等于1的约束下,对权重Wk = Wk / Pk m=1 Wm进行缩放。误差最小的增强图像将获得最高权重,反之亦然。 此外,我们还比较了对所有增强方法的权重均等的情况。 在两种加权策略中,基于MSE的加权均产生最佳结果,因此被选为默认值。 请注意,我们还可以通过简单地将其与一个身份过滤器(K + 1)卷积来包含原始图像,类似于方法2:RGB图像的权重设置为1,即WK+1 =1。在训练过程中,权重为 通过训练/验证集上的交叉验证来估计,而在测试阶段,我们使用这些预先计算的权重。 此外,我们观察到在不对权重进行正则化的情况下训练网络会阻止模型在整个学习过程中收敛,并导致过度拟合,从而导致性能显着下降。
端到端训练:最后,我们现在通过添加MSE项来扩展方法2的损失,该术语用于分类目标的K增强网络的联合优化,我们以端到端的方式共同学习网络的所有参数。 加权损失是特定于样本的,表示为:
我们相信以这种方式训练我们的网络,提供了一种自然的方式来鼓励滤镜应用变换来增强图像结构以进行准确的分类,因为分类网络是通过增强网络进行正则化的。 此外,联合优化有助于最大程度地降低整个体系结构的总体成本,从而获得更好的结果。
4 实验
在本节中,我们演示了在四个非常不同的图像分类任务上使用增强过滤技术的方法。 首先,我们介绍数据集,目标输出数据生成和实现细节,并探讨所提出方法的设计选择。 最后,我们测试并比较了我们提出的方法与基准方法和其他当前的ConvNet体系结构。 请注意,本文的目的是使用附加增强过滤器来提高通用CNN架构的基线性能,而不是与最新技术竞争。
4.1 数据集
我们在四个视觉识别任务上评估了我们提出的方法:使用CUB-200-2011 CUB进行细分类[37],使用PASCAL-VOC2007(PascalVOC)进行对象分类[12],使用MIT-IndoorScene(MIT)进行场景识别[ 26],以及使用可描述纹理数据集(DTD)进行纹理分类[4]。 表1显示了数据集的详细信息。 对于所有这些数据集,我们使用作为原始评估方案提供的标准训练/验证/测试协议,并报告分类准确性。
4.2 目标输出数据
我们为五种(即K = 5)增强方法E生成目标输出T图像:(1)加权最小二乘(WLS)滤波器[13],(2)双边滤波器(BF)[11,34],(3) 图像锐化滤波器(Imsharp),(4)导引滤波器(GF)[16]和(5)直方图均衡化(HistEq)。 给定输入图像,我们首先将RGB颜色空间转换为亮度色度颜色空间,然后将这些增强方法应用于亮度图像以获得增强的亮度图像。 然后将该增强的亮度图像用作训练的目标图像。 对于WLS和Imsharp,我们使用了默认参数;对于BF,GF和HistEq,我们使用了默认参数,以适应每个图像,因此不需要设置参数。 为了进行全面的讨论,我们请读者参考[11,13,16]。 快速BF [11],WLS [13]的源代码可公开获得,其他代码可在Matlab框架中获得。
我们使用MatCovNet和Torch框架,所有的ConvNets均在TitanX GPU上进行训练。 在这里,我们讨论作为经典ConvNet培训方案的ConvNet培训(1)具有动态增强过滤器网络,(2)具有静态增强过滤器和(3)不具有增强过滤器的实施细节。
我们在AlexNet [21],GoogleNet [31],VGG-VD [30],VGG-16 [30]和BN-Inception [17]上评估我们的设计。 在每种情况下,模型都在ImageNet [8]上进行预训练,然后在目标数据集上进行微调。 为了对网络进行微调,我们将1000路分类层替换为C路softmax层,其中C是目标数据集中的类数。 为了根据数据集微调不同的体系结构,使用了大约60-90个轮次(批大小为32),以降低的预定学习率开始,从小的学习率开始0.01。 所有的ConvNet架构都使用相同的优化方案进行了训练,使用SGD优化器,其固定权重衰减为5×10-4,并且计划的学习速率降低。 我们遵循两个步骤来微调整个网络。 首先,我们使用RGB图像对ConvNet体系结构进行微调(最后两个fc层),然后将其嵌入Stat / Dyn-CNN中,以便通过对所有层设置较小的学习率来对带有增强滤波器的整个网络进行微调。 最后两个fc层,它们的学习率很高。 具体来说,例如,在BN接收中,网络需要224×224的固定输入大小。在进行网络训练之前,对图像进行均值减去。 我们通过裁剪四个角,中心和它们的x轴翻转以及颜色抖动(以及每个裁剪的重复裁剪过程)来应用数据增强[21,30]进行网络训练。 提前,我们将提供使用BN-Inception进行ConvNet培训的更多详细信息。
动态增强过滤器(Dyn-CNN):增强网络由570k可学习的模型参数组成,最后一个完全连接的层(即动态过滤器参数)包含36个神经元-过滤器大小为6×6。 我们随机地初始化增强网络的模型参数,除了最后一个完全连接的层,该层被初始化以回归身份变换(零权重和身份变换偏差),在[18]中建议。 我们将学习率初始化为0.01,然后每15k迭代将学习率降低10倍。 最大迭代次数设置为90k。 在计算速度方面,训练增强网络与BNInception一起使用大约需要花费10,000。 与方法1的BN-Inception相比,网络收敛的培训时间增加了7%(3.1节)。 我们使用五个增强网络为方法3(第3.3节)生成五个增强过滤器(每种方法一个)。 我们也包括原始的RGB图像。
-不使用增强过滤器(FC-CNN):类似于经典ConvNets的微调方案,在微调之前,我们将预训练模型的最后一个分类层替换为C-way分类层。 对完全连接的层和分类层进行了微调。 我们将学习率初始化为0.01,然后每15k迭代将学习率降低10倍。 最大迭代次数设置为45k。
-静态增强过滤器(Stat-CNN):与FC-CNN相似,此处,我们有五个静态过滤器的五个增强图像和原始RGB图像作为第六个输入,这些输入作为ConvNets的输入进行网络训练。 实际上,用于图像增强的静态滤波器是非常低复杂度的操作。 这里使用的优化方案与FC-CNN相同。 我们将所有五个静态学习过滤器用于方法2(第3.2节)。
测试:如前所述,将输入的RGB图像转换为亮度-色度颜色空间,然后使用增强滤波器对亮度图像进行卷积,从而得到增强的亮度图像。 然后将色度重新组合为增强的亮度图像,然后将图像转换回RGB。对于ConvNet测试,使用静态或动态滤镜的输入帧可以是RGB图像或增强RGB图像。 总共将五个增强图像(每个滤镜一个)和原始RGB图像依次馈入网络。 对于最终的图像标签预测,所有图像的预测都通过加权和进行组合,其中预先计算的权重W是从Dyn-CNN获得的。
4.4 细分类
在本节中,我们使用CUB-200-2011 [37]数据集作为测试平台,探讨我们提出的方法的设计选择,然后最后将我们的方法与基准方法和当前方法进行比较。
数据集:CUB [37]是细粒鸟类分类数据集。 数据集包含20种鸟类,共11,788张图像。 对于此数据集,我们测量预测图像类别的准确性。
消融研究:在这里,我们探讨了我们提出的方法的四个方面:(1)不同过滤器尺寸的影响; (2)每种增强方法的影响分别; (3)加权策略的影响; (4)不同ConvNet架构的影响。
−过滤器尺寸:在我们的实验中,我们探索了三种不同的过滤器尺寸。 具体来说,我们将增强网络实现为几个卷积和完全连接的层,最后一层包含(1)25个神经元(fΘ是大小为5×5的增强滤波器),(2)36个神经元(6×6) 和(3)49个神经元(7×7)。 从文献[7,18]中,我们利用了有关良好过滤器尺寸的见解。 过滤器的大小决定了感受野,并取决于应用。 我们发现,> 7×7的滤镜尺寸会产生更平滑的图像,从而使分类性能下降约5%。 过滤器大小为6×6的情况下为2%(WLS:68.73→66.84)。 过滤器尺寸<5×5的情况与此类似,其中未传递正确的增强效果,导致性能下降了约5%。 3%(WLS:68.73→65.9)。 我们发现6×6的滤镜学习了预期的变换,并对保留边缘更清晰的输入图像应用了正确的增强。
−增强方法(E):在这里,我们从三个方面比较各个增强方法的性能:(1)我们在ImageNet [8]上使用经过预先训练的AlexNet [21],并在CUB上进行微调(最后两个fc层) 分别针对每种地面真相增强方法(GTEM)。 (2)使用来自(1)的CUB上的预训练RGB AlexNet模型,通过为除最后两层fc层(具有较高的fc层)之外的所有层设置较小的学习率,使用GT-EM对整个模型进行微调 学习率。 这稍微改善了预训练RGB模型的性能。 (3)与(2)类似,但是在这里我们使用方法1(第3.1节)微调整个模型。 我们可以看到,与仅在RGB图像上进行微调的通用网络相比,我们的动态增强方法将性能提高了1-1.5%左右。 在表2中,我们总结了结果。
表2:使用CUB上的AlexNet的所有增强方法E的个体准确性(%)性能比较,其中LF是后期融合,是5种增强方法得分的平均值。在图5中,作为示例,我们展示了一些增强方法从GT-EM中提取的纹理差异的定性结果,这主要是改善分类性能。
图5:定性结果:CUB。 对于所有增强方法,使用方法1(第3.1节)获得的目标图像T,增强的亮度图像Y'和差异图像的补码(diff = T-Y')之间的比较。
−加权策略:将后期融合(LF)中的增强方法作为分数的平均值相结合,可以得到进一步的改进,如表2所示。通过这种观察,我们意识到应该应用更有效的加权策略,从而提高重要性 可以提供更好的合并方法。 在我们的评估中,我们探索了两种加权策略(1)赋予权重Wk等于1 / K的值-即K = 5时为0.2,以及(2)基于MSE计算的权重,通过交叉验证进行估算 表3所示。
表3:使用DN-CNN和BN-Inception在CUB训练集上通过交叉验证估算的每种增强方法的权重W的相对比较,其中RGB图像的W默认设置为1。表4清楚地表明,加权增加了正的正则化效果。 我们发现,使用MSE损失的正规化训练网络可以防止分类目标在整个学习过程中出现分歧。 表3显示,在Dyn-CNN中,每个增强滤波器的权重与其表2中所示的单个性能的权重非常相关。我们观察到,基于MSE的权重表现最佳。 因此,我们选择将其作为默认的加权方法。
表4:使用CUB上的BN-Inception的加权策略的准确性(%)性能比较 −ConvNet体系结构:在这里,我们比较不同的ConvNet体系结构。 具体来说,我们比较了AlexNet [21],GoogLeNet [31]和BN-Inception [17]。在表5所示的所有体系结构中,BN-Inception在分类准确度方面均表现出最佳性能。 因此,我们选择BNInception作为此实验的默认体系结构。 表5:CUB上不同体系结构的准确度(%)性能比较。结果:在表6中,我们使用当前方法探索了静态和动态CNN。 我们使用带有Stat-CNN和Dyn-CNN的两步微调方案来考虑BN-Inception。 我们可以注意到,Dyn-CNN使用图像增强功能将通用BN-Inception性能提高了3.82%(82.3→86.12)。 与生成地面目标图像相比,我们的EnhanceNet仅需要8毫秒(GPU)的恒定时间来生成所有增强图像,这非常耗时,并且每个图像/方法大约需要16秒:BF,WLS 和GF。 整个模型的测试时间为:EnhanceNet(8毫秒)加上ClassNet(所用体系结构的推理时间)。
表6:细分类(CUB) Stat-CNN和Dyn-CNN与基线方法和先前关于CUB的工作的准确性(%)性能比较。此外,我们将基线2×ST-CNN [18]扩展为包括紧随输入之后的静态滤波器(第3.2节)和动态滤波器(第3.3节),并增加了加权损失。 参考ST-CNN的工作[18],我们评估方法,保持训练和评估设置相同以进行公平比较。 我们的结果表明,Dyn-CNN将性能提高了3.81%(83.1→86.91)。 此外,我们的带静态滤波器的Stat-CNN也具有竞争力,并且比2×ST-CNN的性能高1.15%[18]。 这意味着将静态过滤器放入网络后可以显着增强功能,因此在任何ConvNet体系结构中都有望获得准确性。
4.5 对象分类
数据集:PASCAL-VOC2007 [12]数据集包含20个对象类,这些对象类包含9,963个图像,总共包含24,640个带注释的对象。 对于此数据集,我们报告所有类别的平均值的平均平均精度(mAP)。
结果:在表7中,我们显示结果。 使用AlexNet的Dyn-CNN比Stat-CNN / FC-CNN好4.58 / 6.16%,而使用VGG-16则好2.43 / 3.5%。 可以观察到,对于更小的网络,与更深的VGG-16网络相比,AlexNet在性能上有了更大的提高。 同样,使用AlexNet / VGG-16的Stat-CNN比FC-CNN高1.58 / 1.07%。 此外,Bilen等。 [1]具有89.7%的mAP的性能比使用VGG-16的Dyn-CNN低3.1%(89.7←92.8)。
4.6 室内场景识别
数据集:MIT室内场景数据集(MIT)[26]包含67个室内场景类别,其中包含5356张图像。 对于此数据集,我们测量预测图像类别的准确性。
** 结果**:在表7中,我们显示结果。 如预期和先前观察到的那样,使用AlexNet的Dyn-CNN比Stat-CNN / FC-CNN高4.66 / 6.11%,使用VGG-16则高2.73 / 3.8%。
4.7 内容识别
数据集:可描述的纹理数据集(DTD)[4]包含47个可描述的属性,包含5,640张图像。 对于此数据集,我们报告所有类别的平均mAP。
结果:在表7中,我们显示结果。 这个故事与我们之前的观察相似:Dyn-CNN的性能明显优于Stat-CNN和FC-CNN。 令人惊讶的是,有趣的是,与使用AlexNet / VGG-VD的FCCNN相比,Dyn-CNN显示出6.51 / 4.34%的显着改善。
5 结束语
在本文中,我们提出了一个统一的CNN架构,该架构可以仿真一系列增强滤波器,其总体目标是在端到端学习方法中改善图像分类。 我们在四个基准数据集上展示了我们的框架:PASCAL-VOC2007,CUB200-2011,MIT室内场景和可描述纹理数据集。 除了提高所有数据集上的原始CNN架构的基线性能外,与使用静态/动态增强过滤器的最新技术相比,我们的方法还显示出了可喜的结果。 此外,我们的增强过滤器可与任何现有网络一起使用,以对图像纹理和结构特征进行显式增强,从而使CNN可以学习更高质量的特征,从而可以导致更准确的分类。
我相信我们的工作为进一步的探索打开了许多可能性。 在未来的工作中,我们计划进一步研究更多适合图像增强任务的增强方法以及更复杂的损失函数。
网友评论