读书报告-组号 13组题目 VERY DEEP CONVOL

作者: 7309d63d7297 | 来源:发表于2018-04-09 19:50 被阅读16次

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

Karen Simonyan & Andrew Zisserman+。

视觉几何组，工程系，牛津大学卡伦，阿兹@robots.ox.ac.uk。

摘要

在此工作中，我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是一个彻底的评估增加深度使用网络架构与非常小(3×3)卷积过滤器,这表明,明显地改善了现有技术配置可以通过推动体重16 - 19层的深度。这些发现是我们的Image网络挑战2014提交的基础，我们的团队分别在localisa和classification tracks中获得了第一和第二的位置。我们还表明，我们的表示对其他数据集有很好地概括，在那里它们达到了最先进的结果。我们已经将我们的两个最佳的对流模型公开，以方便进一步研究在计算机视觉中使用深度视觉表现。

1介绍

卷积网络(卷积网络s)最近在大规模图像和视频识别方面取得了巨大的成功(Krizhevsky et al.， 2012;Zeiler &费格斯,2013;Serma网络 et al .,2014;Simonyan & Zisserman, 2014)由于大型公共图像存储库，如Image网络 (Deng et al.， 2009)和高性能计算系统，如gpu或大规模分布式集群(Dean et al.， 2012)，已经成为可能。特别是,一个重要的角色在促进深度视觉识别体系结构已经由Image网络大规模视觉赞赏的挑战(ILSVRC)(Russakovsky et al .,2014),它曾作为几代实验平台的大规模图像分类系统,从高维浅特性en-codings(Perronnin et al .,2010)(ILSVRC - 2011)的获胜者深处回旋网(Krizhevsky et al .,2012)(ILSVRC - 2012)的获胜者。

随着对流网络在计算机视觉领域越来越成为一种商品，人们试图改进Krizhevsky et al.(2012)的原始架构，以达到更好的准确性。例如，对ILSVRC-2013 (Zeiler & Fergus, 2013;Serma网络 et al.， 2014)利用较小的接受窗尺寸和第一个卷积层的较小跨度。另一项改进涉及对整个图像和多个尺度的网络进行密集的训练和测试(Serma网络 et al.， 2014;霍华德,2014)。在本文中，我们讨论了对流网络结构设计的另一个重要方面——深度。为此,我们修复结构的其他参数,和稳步增长的深度网络通过添加更多的回旋的层,这是可行的由于使用非常小(3×3)卷积过滤器在所有层。

因此,我们想出更精确的事先架构,不仅实现了先进的准确性在ILSVRC分类和本地化的任务,但也适用于其他图像识别的数据集,使用时,他们甚至实现性能优良的一个相对简单的管道(如深线性SVM分类的特性没有微调)。为了便于进一步研究，我们已经发布了我们的两个最佳模型。

论文的剩余部分组织如下。在第2节中，我们描述了我们的对流构型。然后将图像分类训练和评价的细节呈现在第3节和第3节。在第4节中，比较了ILSVRC分类任务的配置。第五节总结全文。为了完整性，我们还在附录A中描述和评估了我们的ILSVRC-2014对象本地化系统，并讨论了附录b中对其他数据集的非常深入的特性。最后，附录C包含了主要的论文修改列表。

2事先配置

为了测量在一个公平的环境中增加的对流网络深度带来的改善，我们所有的对流网络层配置都是使用相同的原理设计的，灵感来自Ciresan et al. (2011);Krizhevsky et al。(2012)。在本节中，我们首先描述了我们的卷积网络配置的一个通用布局(第2.1节)，然后详细介绍了评估中使用的具体配置(第2.2节)。然后讨论我们的设计选择，并将其与第2.3节中的现有技术进行比较。

2.1体系结构

在培训期间,我们的回旋网是一个固定大小的输入224×224 RGB图像。我们所做的预处理是减去平均RGB值，计算在训练集上的每个像素。图像通过一堆卷积层,我们使用过滤器与一个非常小的接受域:3×3(这是最小的尺寸来捕获左/右的概念,上/下,中心)。在其中一种配置中，我们还利用了1 1卷积滤波器，它可以被看作是输入通道的线性变换(其次是非线性)。卷积步幅固定为1像素;卷积层输入的空间填充是在卷积后的空间分辨率，即3×3卷积层的填充为1像素。空间池是由5个混合池层执行的，这些层遵循一些卷积层(不是所有的卷积层，然后是max-pool)。Max-pooling执行在一个2×2像素的窗口。

一堆卷积层(在不同的体系结构中有不同的深度)，然后是三个完全连接的层:前两层有4096个通道，第三层执行1000-way ILSVRC分类，因此包含1000个通道(每个类一个)。最后一层是软max层。在所有网络中，完全连通的层的配置是相同的。

所有隐藏层都配备了整流(ReLU (Krizhevsky et al.， 2012))非线性。我们注意到，我们的网络(除了一个)没有一个包含本地响应特征归一化归一化(Krizhevsky et al.， 2012):如图4所示，这种正常化并没有改善ILSVRC数据集的性能，但会增加内存消耗和计算时间。在适用的情况下，本地响应特征归一化层的参数为(Krizhevsky et al.， 2012)。

2.2配置

在本文中评估的卷积网络配置在表1中列出，每列一个。下面我们将用他们的名字(A-E)来指代网队。所有的配置都遵循在第2.1节中提出的通用设计，并且仅在深度上有所不同:在网络E(16个卷积和3个完全连接层)中，从11个权重层(8个卷积和3个完全连接层)到19个权重层。卷积层的宽度(通道数)相当小，从第一个层的64个开始，然后在每个max-pooling层之后增加一个因子2，直到它达到512。

在表2中，我们报告了每个配置的参数数量。尽管有很大的深度，但在我们的网中，权重的数量并不比一个更浅的网中权重的数量要大，在更大的卷积层宽度和接受域(Serma网络 et al.， 2014)中有144M的权重。

2.3讨论

我们的卷积网络配置与ILSVRC-2012 (Krizhevsky et al.， 2012)和ILSVRC-2013竞赛(Zeiler & Fergus, 2013;Serma网络 et al .,2014)。而不是使用相对较大的接受领域第一个卷积.层(例如11×11步4(Krizhevsky et al .,2012),或7×7步2(Zeiler &费格斯,2013;Serma网络 et al .,2014)),我们使用非常小的3×3接受字段在整个网络,这是与输入每个像素卷积(1步)。很容易看到一堆两个3×3 卷积.层(没有空间池)之间有一个有效的接受域5×5;

表1:卷积网络配置(在列中显示)。配置的深度从左边(A)增加到右边(E)，因为添加了更多的层(添加的层以粗体显示)。卷积层参数表示为“卷积接收场大小-通道数”。ReLU激活函数没有显示为简洁。

表2:参数数量(以百万计)。

这三层有7×7有效的接受域。所以我们得到了利用,例如,一堆三个3×3卷积层而不是单个7×7层?首先，我们引入了三个非线性整流层，而不是单一的一层，这使得决策函数更加具有鉴别性。第二,我们减少了参数的数量:假设的输入和输出三层3×3卷积堆栈C频道,栈是由3 32 c2 parametrised = 27 c2权重;与此同时,一个7×7卷积.层需要72 c2 = 49 c2参数,即多出81%。这可以被视为实施regularisation 7×7 卷积.过滤器,迫使他们分解通过3×3过滤器(非线性之间注入)。

1×1 卷积层合并(配置C,表1)是一种增加的非线性判决函数而不影响接受的字段卷积.层。即使在我们的例子中1×1卷积本质上是相同的线性投影空间维数(输入和输出通道的数量都是一样的),一个额外的非线性整流功能介绍。应该注意的是,1×1 卷积.层最近利用“网络的网络”结构的林et al。(2014)。

Ciresan等人(2011)曾使用过小尺寸的卷积滤波器，但是它们的网络比我们的要小得多，而且它们没有对大规模的ILSVRC数据集进行评估。Goodfellow et al.(2014)对街道号码识别的任务应用了深度对流(11权层)，并表明深度的增加带来了更好的性能。GoogLe网络 (Szegedy et al.， 2014)是ILSVRC-2014分类任务的顶级条目，它是独立于我们的工作而开发的，但它的相似之处在于它基于非常深的卷积。

重量(22层)和小卷积过滤器(除了3×3,他们也用1×1和5×5旋转)。然而，他们的网络拓扑结构比我们的更复杂，在第一层中，特征映射的空间分辨率降低得更厉害，从而减少了计算量。在第4.5节中，我们的模型在单网络分类精度方面优于Szegedy等人(2014)。

3分类框架

在上一节中，我们介绍了网络配置的细节。在这一节中，我们描述了分类卷积训练和评价的细节。

3.1培训

在Krizhevsky et al.(2012)中，对卷积网络的训练程序(除了从多尺度的训练图像中抽取输入作物的样本外)(如后面所解释的)。也就是说，通过使用小批量梯度下降(基于反向传播(LeCun et al.， 1989))，通过优化多项式逻辑回归目标来进行训练。批量大小设置为256，动量为0.9。重量训练是主旨衰变(L2点球乘数将5·10−4)和辍学regularisation第一两个全层(辍学比例设置为0.5)。学习速率是最初设置为10−2,然后下降了10倍时验证设置停止提高准确性。总的来说，学习速率下降了3次，在370K次迭代后停止学习(74个时代)。我们推测，尽管与(Krizhevsky et al.， 2012)相比，我们的网络参数数量更大，网络的深度也更大(Krizhevsky et al.， 2012)，但由于更大的深度和更小的卷积过滤尺寸所造成的隐式规则化，网网需要更少的时间来收敛。(b)某些层的预初始化。

网络权重的初始化是很重要的，因为在深网中，由于梯度的不稳定性，不好的初始化会导致学习停滞。为了避免这个问题，我们开始训练配置A(表1)，浅到可以接受随机初始化的训练。然后，在训练更深层的架构时，我们初始化了前四个卷积层和最后三个完全连通的层，其中的层是网络 A(中间层是随机初始化的)。我们没有降低初始化层的学习速率，允许它们在学习过程中发生变化。随机初始化(在适用情况下),我们从正态分布抽样权重与零均值和方差10−2。偏见被初始化为零。值得注意的是，在提交论文后，我们发现通过使用Glorot & Bengio(2010)的随机初始化程序来初始化权重是可能的。

获取固定大小224×224事先输入的图像,他们被随机出现的新训练图像(一种作物/图像/ SGD迭代)。为了进一步增加训练集，作物进行了随机水平翻转和随机RGB颜色转移(Krizhevsky et al.， 2012)。训练图像的重新调整如下所述。

训练图像大小。让S是各向异性扫描训练图像中最小的边，从这个图像中我们可以看到对流网络的输入(我们也称S为训练规模)。而作物大小是固定的224×224,原则上可以取任何值不低于224:当S = 224该作物将捕获整幅图像的统计信息,完全跨越最小的训练图像;当S≫224该作物将对应于图像的一小部分,包含一个小物体或物体的一部分。

我们考虑两种设置训练量表的方法。第一种方法是修正S，它对应于单一规模的训练(注意，样本内的图像内容仍然可以表示多尺度图像统计)。在我们的实验中，我们评估了在两个固定尺度上训练的模型:S = 256(这在之前的艺术中得到了广泛的应用(Krizhevsky et al.， 2012;Zeiler &费格斯,2013;Serma网络 et al.， 2014)和S = 384。给定一个卷积网络配置，我们首先使用S = 256来训练网络。S = 384的加速训练网络,它是初始化权重pre-trained和S = 256,我们使用一个较小的初始学习10−3。

设置S的第二种方法是多尺度训练，每个训练图像都是通过随机抽样从一定范围内(Smin, Smax)(我们使用Smin = 256和Smax = 512)进行单独的扫描。由于图像中的对象大小不同，所以在训练过程中考虑这一点是有益的。这也可以被看作是训练集增加的规模抖动，其中一个单一。

模型被训练用来识别各种不同尺度的物体。出于速度方面的原因，我们通过对具有相同配置的单级模型的所有层进行了微调，从而训练了多尺度模型。

3.2测试

在测试时，给定一个训练过的对流网络和一个输入图像，它按如下方式分类。首先，它是各向同性被重新定义为预先定义的最小图像边，表示为Q(我们也称它为测试尺度)。我们注意到Q并不一定等于训练规模S(我们将在第4节中展示)，使用几个Q值来提高性能。然后，通过类似于(Serma网络 et al.， 2014)的方式，将网络应用于被重新扫描的测试图像上。即首先被转化为卷积层全层(第一个完全连接层7×7卷积.层,最后两个完全连接层1×1卷积.层)。由此产生的全卷积网络应用于整个(未裁剪的)图像。结果是一个类的分数映射，其中通道数等于类的数量，以及一个可变的空间分辨率，依赖于输入图像的大小。最后，为了得到图像的一个固定大小的类分数向量，类分数映射是空间平均(sumo -pooled)。我们还通过水平翻转图像来增加测试集;将原始图像和翻转图像的软-max类后比平均得到图像的最终分数。

由于全卷积网络应用于整个图像，所以不需要在测试时采样多个作物(Krizhevsky et al.， 2012)，它的效率较低，因为它需要对每一种作物进行网络重新计算。与此同时，使用Szegedy等人(2014)所做的大量农作物，可以提高准确性，因为它能比全卷积网络更精确地采样输入图像。同时,multi-crop评价是密集的补充评价由于不同的卷积边界条件:当应用事先作物,卷积功能地图用0填充,在密集的情况下评估填充为同一作物自然来自邻近的部分图像(由于玲珑和空间池),这大大增加了整体网络接受域,所以捕捉更多的上下文。虽然我们相信在实践中多个计算时间的增加作物并不证明准确性的潜在收益,我们也评估网络供参考使用50作物/规模(5×5正则网格与2次),总共150种作物/ 3尺度,这是与所使用的144种作物/ 4尺度Szegedy et al。(2014)。

3.3实现细节

实现来源于公开c++咖啡工具箱(贾庆林,2013)(扩展2013年12月),但包含许多重要的修改,允许我们进行培训和评价多个gpu安装在一个系统,以及训练和评估全尺寸(uncropped)图像多尺度(如上所述)。多GPU训练利用数据并行性，将每批训练图像分割成几个GPU批次，并行处理每一个GPU。计算出GPU批次梯度后，取其平均值，得到整批的梯度。梯度计算在GPU上是同步的，所以结果与在单个GPU上的训练是完全一样的。

在更复杂的方法,加快事先训练最近提议(Krizhevsky,2014),使用模型和数据并行性的不同层网,我们发现我们的概念上更简单的方案已经提供了一个现成的4-GPU系统上加速的3.75倍,比使用单一GPU。在一个装备了4个NVIDIA Titan黑gpu的系统上，训练一个单网需要2-3周的时间，这取决于架构。

4分类实验

数据集。在本节中，我们给出了在ILSVRC-2012数据集上描述的卷积网络体系结构实现的图像分类结果(用于ILSVRC 2012-2014 chal-lenges)。该数据集包含1000个类的图像，并分为三组:训练(130万张图片)、验证(50K图像)和测试(100K的图像和被输出的类标签)。使用两种度量方法评估分类性能:前1和前5错误。前者是一个多类分类错误，即错误分类图像的比例;后者是

在ILSVRC中使用的主要评价标准，并计算为图像的比例，即地面真值类别在前5预测类别之外。

在大多数实验中，我们使用验证集作为测试集，在测试集上也进行了一些实验，并将其提交给官方的ILSVRC服务器作为“VGG”团队进入ILSVRC-2014竞赛(Russakovsky et al.， 2014)。

4.1单一规模评估

首先，我们从一个尺度上评价单个对流模型的性能，并使用第2.2节中描述的层配置。测试图像的大小设置为:Q = S为固定S, Q = 0.5(Smin + Smax)为抖动S [Smin, Smax]。结果如表3所示。首先，我们注意到，使用本地响应正常化(A-本地响应特征归一化网络)在模型A上没有改进，没有任何标准化层。因此，我们不会在较深的体系结构(B-E)中使用标准化。

第二,我们观察到的分类误差随深度增加事先:从11层至19层e .值得注意的是,尽管同样的深度,配置C(包含三个1×1卷积.层),执行比配置D,采用3×3 卷积.层在整个网络。这表明尽管附加非线性帮助(C比B),同样重要的是捕捉与非平凡的接受领域的空间上下文使用卷积.过滤器(D比C)。我们架构的错误率浸透当深度达到19层,但更深层次的模型可能是有益的更大的数据集。我们还比较了B与浅净净五5×5 卷积.层,由取代每一对来自B 3×3 卷积.层用一个5×5 卷积.层(相同的接受域解释。2.3)。浅网的前1个错误被测得比B(在中心作物上)高出7%，这就证实了一个带有小过滤器的深网比一个有更大过滤器的浅网要好。

最后，在训练时间尺度抖动(S [256];(512))，即使是在测试时使用单一的刻度，也会比在固定最小的边(S = 256或S = 384)的图像上得到更好的结果。这证实了通过规模抖动来增强训练集确实有助于捕获多尺度图像统计数据。

表3:单个测试规模的对流性能。

4.2多尺度评价

我们在一个单一的尺度上评估了对流网络模型，我们现在评估了在测试时间的规模抖动的影响。它包括运行一个模型，在多个被重新扫描的测试图像上(对应于不同的Q值)，然后平均分配结果类的后面。考虑到培训和测试标准之间存在很大差异导致性能下降,模型训练与固定在三个测试图像大小进行评估,接近训练:Q = {−32,年代,S + 32 }。与此同时，在训练时间上的尺度抖动允许在测试时将网络应用到更广泛的范围内，因此对变量S (Smin, Smax)进行训练的模型在更大范围的Q = {Smin, 0.5(Smin + Smax)， Smax}中进行了评估。

结果如表4所示,表明规模抖动测试时候会导致更好的性能(相对于评估相同的模型在一个单一的规模,表3所示),和之前一样,最深的配置(D和E)表现最好的,和规模抖动比训练一个固定的最小边美国最好单独的网络性能验证组排名前24.8% / 7.5% /五大错误(以粗体突出显示在表4)。在测试集,配置E达到7.3%五大错误。

表4:在多个测试尺度上的对流性能。

4.3 MULTI-CROP评价

在表5中，我们比较了密集的对流网络评价和mult-作物评价(参见第3.2节的反尾)。我们还评估了这两种评估技术的互补性，通过平均它们的软最大输出。可以看出，使用多种作物比密集的评估稍微好一点，这两种方法实际上是互补的，因为它们的组合比它们各自的性能好。如上所述，我们假设这是由于卷积边界条件的不同处理。

4.4事先融合

到目前为止，我们对单个对流模型的性能进行了评价。在实验的这一部分中，我们将几种模型的输出与它们的软-max类的后比结合起来。这提高了模型的互补性，并在2012年(Krizhevsky et al.， 2012)和2013年(Zeiler & Fergus, 2013;Serma网络 et al .,2014)。

结果如表6所示。在ILSVRC提交的时候，我们只训练了单级网络，以及一个多尺度模型D(通过微调只有完全连接的层而不是所有层)。由此产生的7个网络集成电路具有7.3%的ILSVRC测试误差。在提交之后，我们考虑了一个只有两个表现最好的多尺度模型(配置D和E)，通过密集的评估和使用联合密集和多作物评估，将测试误差降低到7.0%。作为参考，我们的最佳单模型达到7.1%的错误(model E，表5)。

4.5与艺术的状态比较

最后，我们将我们的结果与表7中的艺术状态进行比较。在ILSVRC-2014挑战赛的分类任务中(Russakovsky et al.， 2014)，我们的“VGG”团队使用7个模型集成的7.3%测试错误获得了第二名。在提交之后，我们使用2个模型的集成将错误率降低到6.8%。

表6:多个对流网络融合结果

从表7可以看出，我们非常深的卷积网络s明显优于上一代的模型，在ILSVRC-2012和ILSVRC-2013的比赛中取得了最好的结果。我们的结果在分类任务赢家(GoogLe网络有6.7%的误差)方面也很有竞争力，并且大大超过了ILSVRC-2013的获胜提交的Clarifai，它获得了11.2%的外部培训数据和11.7%的外部培训数据。这是值得注意的，考虑到我们最好的结果是仅仅将两种模型结合在一起——比大多数ILSVRC提交的模型要少得多。就单网性能而言，我们的架构获得了最好的结果(7.0%的测试错误)，超过了一个GoogLe网络的0.9%。值得注意的是，我们并没有偏离LeCun et al.(1989)的经典的卷积网络体系结构，而是通过大幅增加深度来改进它。

表7:与ILSVRC分类中的艺术状态比较。

5结论

在这项工作中，我们评估了非常深的卷积网络(多达19个权重层)用于大规模的图像分类。结果表明，表示深度对分类精度是有利的，在Image网络挑战数据集上的最先进的性能可以使用传统的卷积网络体系结构(LeCun et al.， 1989;Krizhevsky等人，2012)深度增加。在附录中，我们还展示了我们的模型对各种各样的任务和数据集，匹配或优于更复杂的识别管道，建立在更少的深度图像表示上。我们的结果再次证实了深度在视觉表现中的重要性。

致谢

这项工作得到了ERC grant VisRec no的支持。228180年。我们感谢英伟达公司的支持，并捐赠了用于本研究的gpu。

参考文献

Bell, S., Upchurch, P., Snavely, N., and Bala, K. Material recognition in the wild with the materials in context database. CoRR, abs/1412.0623, 2014.

Chatfield, K., Simonyan, K., Vedaldi, A., and Zisserman, A. Return of the devil in the details: Delving deep into convolutional nets. In Proc. BMVC., 2014.

Cimpoi, M.,Maji, S., and Vedaldi, A. Deep convolutional filter banks for texture recognition and segmentation. CoRR, abs/1411.6836, 2014.

Ciresan, D. C., Meier, U., Masci, J., Gambardella, L. M., and Schmidhuber, J. Flexible, high performance

convolutional neural networks for image classification. In IJCAI, pp. 1237–1242, 2011.

Dean, J., Corrado, G., Monga, R., Chen, K., Devin, M., Mao, M., Ranzato, M., Senior, A., Tucker, P., Yang,

K., Le, Q. V., and Ng, A. Y. Large scale distributed deep networks. In NIPS, pp. 1232–1240, 2012.

Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., and Fei-Fei, L. Imagenet: A large-scale hierarchical image

database. In Proc. CVPR, 2009.

Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., and Darrell, T. Decaf: A deep convolutional activation feature for generic visual recognition. CoRR, abs/1310.1531, 2013.

Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C., Winn, J., and Zisserman, A. The Pascal visual object classes challenge: A retrospective. IJCV, 111(1):98–136, 2015.

Fei-Fei, L., Fergus, R., and Perona, P. Learning generative visual models from few training examples: An

incremental bayesian approach tested on 101 object categories. In IEEE CVPR Workshop of Generative

Model Based Vision, 2004.

Girshick, R. B., Donahue, J., Darrell, T., and Malik, J. Rich feature hierarchies for accurate object detection

and semantic segmentation. CoRR, abs/1311.2524v5, 2014. Published in Proc. CVPR, 2014.

Gkioxari, G., Girshick, R., and Malik, J. Actions and attributes from wholes and parts. CoRR, abs/1412.2604,2014.

Glorot, X. and Bengio, Y. Understanding the difficulty of training deep feedforward neural networks. In Proc. AISTATS, volume 9, pp. 249–256, 2010.

Goodfellow, I. J., Bulatov, Y., Ibarz, J., Arnoud, S., and Shet, V. Multi-digit number recognition from street view imagery using deep convolutional neural networks. In Proc. ICLR, 2014.

Griffin, G., Holub, A., and Perona, P. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007.

He, K., Zhang, X., Ren, S., and Sun, J. Spatial pyramid pooling in deep convolutional networks for visual

recognition. CoRR, abs/1406.4729v2, 2014.

Hoai, M. Regularized max pooling for image categorization. In Proc. BMVC., 2014.

Howard, A. G. Some improvements on deep convolutional neural network based image classification. In Proc. ICLR, 2014.

Jia, Y. Caffe: An open source convolutional architecture for fast feature embedding. http://caffe.berkeleyvision.org/, 2013.

Karpathy, A. and Fei-Fei, L. Deep visual-semantic alignments for generating image descriptions. CoRR, abs/1412.2306, 2014.

Kiros, R., Salakhutdinov, R., and Zemel, R. S. Unifying visual-semantic embeddings with multimodal neural language models. CoRR, abs/1411.2539, 2014.

Krizhevsky, A. One weird trick for parallelizing convolutional neural networks. CoRR, abs/1404.5997, 2014.

Krizhevsky, A., Sutskever, I., and Hinton, G. E. ImageNet classification with deep convolutional neural networks. In NIPS, pp. 1106–1114, 2012.

LeCun, Y., Boser, B., Denker, J. S., Henderson, D., Howard, R. E., Hubbard, W., and Jackel, L. D. Backpropagation applied to handwritten zip code recognition. Neural Computation, 1(4):541–551, 1989.

Lin, M., Chen, Q., and Yan, S. Network in network. In Proc. ICLR, 2014.

Long, J., Shelhamer, E., and Darrell, T. Fully convolutional networks for semantic segmentation. CoRR,

abs/1411.4038, 2014.

Oquab, M., Bottou, L., Laptev, I., and Sivic, J. Learning and Transferring Mid-Level Image Representations using Convolutional Neural Networks. In Proc. CVPR, 2014.

Perronnin, F., S´anchez, J., and Mensink, T. Improving the Fisher kernel for large-scale image classification. In Proc. ECCV, 2010.

Razavian, A., Azizpour, H., Sullivan, J., and Carlsson, S. CNN Features off-the-shelf: an Astounding Baseline for Recognition. CoRR, abs/1403.6382, 2014.

Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A.,

Bernstein, M., Berg, A. C., and Fei-Fei, L. ImageNet large scale visual recognition challenge. CoRR,abs/1409.0575, 2014.

Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., and LeCun, Y. OverFeat: Integrated Recognition,Localization and Detection using Convolutional Networks. In Proc. ICLR, 2014.

Simonyan, K. and Zisserman, A. Two-stream convolutional networks for action recognition in videos. CoRR, abs/1406.2199, 2014. Published in Proc. NIPS, 2014.

Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. Going deeper with convolutions. CoRR, abs/1409.4842, 2014.

Wei, Y., Xia, W., Huang, J., Ni, B., Dong, J., Zhao, Y., and Yan, S. CNN: Single-label to multi-label. CoRR, abs/1406.5726, 2014.

Zeiler, M. D. and Fergus, R. Visualizing and understanding convolutional networks. CoRR, abs/1311.2901,2013. Published in Proc. ECCV, 2014.

本地化

在本文的主体部分，我们考虑了ILSVRC挑战的分类任务，并对不同深度的对流网络结构进行了深入的评价。在本节中，我们将讨论挑战的本地化任务，我们在2014年获得了25.3%的错误。它可以被看作是对象检测的一个特殊情况，在这里，无论类的实际对象数量如何，都应该对每个前5类进行预测。为此，我们采用Serma网络 et al.(2014)的方法，即ILSVRC-2013本地化挑战的优胜者，并进行了一些修改。我们的方法在第a节中进行了描述，并在第a节中进行了评估。

A.本地化事先

为了执行对象本地化，我们使用一个非常深的卷积网络，在那里最后一个完全连接的层可以预测绑定框的位置而不是类的分数。一个边界框由一个4维向量表示，该向量存储其中心坐标、宽度和高度。在所有类中是否共享边界框预测(单级回归、SCR (Serma网络 et al.， 2014))，或者是类特定的(每个类回归，PCR)。在前一种情况下，最后一层是4-D，而后者是4000-D(因为数据集中有1000个类)。除了最后一个边界框预测层之外，我们使用了卷积网络 architecture D(表1)，它包含16个权重层，并且被发现是分类任务中表现最好的(第4节)。

训练局部化对流的训练与分类对流的训练类似(第3.1节)。主要的区别在于，我们用欧几里得的损失来代替逻辑回归目标，这使得预测的边界箱参数与地面真相的偏差得到了惩罚。我们培训了两个本地化模型，每一个都有一个规模:S = 256和S = 384(由于时间的限制，我们没有使用培训规模来适应我们的ILSVRC-2014提交)。训练是初始化与相应的分类模型(训练在同一尺度),和最初的学习速率是设置为10−3。我们对所有层进行了微调，只对前两个完全连接的层进行了微调，如(Serma网络 et al.， 2014)。最后一个完全连接的层是随机初始化并从头开始训练的。

测试我们考虑两个测试协议。第一个用于比较验证集上不同的网络修改，并且只考虑ground truth类的边界框预测(以提出分类错误)。边界框是通过将网络应用到图像的中心部分得到的。

第二种是完全成熟的测试程序，它是基于对整个图像的本地化卷积的密集应用，类似于分类任务(第3.2节)。不同的是，最后一个完全连接的层的输出不是类的分数映射，而是一组包围盒的预测。为了得出最终的预测，我们利用Serma网络 et al.(2014)的贪婪合并过程，该过程首先将空间紧密的预测(通过平均它们的coor-dinates)合并起来，然后根据分类卷积得到的类分数对它们进行评级。当使用多个本地化对流时，我们首先使用它们的绑定框预测组合，然后运行合并过程。我们没有使用Sermanet等人的多重池化补偿技术。（2014），这增加了边界框预测的空间分辨率并且可以进一步改进结果。

A .本地化实验

在本节中，我们将首先确定最佳执行的本地化设置(使用第一个测试proto-col)，然后在一个完全成熟的场景(第二个协议)中进行评估。根据ILSVRC判据(Russakovsky et al.， 2014)来测量定位误差，即当其与地面真值边界盒的结合比大于0.5时，边界盒预测被认为是正确的。

设置比较 从表8可以看出，每个类的回归(PCR)比与Serma网络 et al.(2014)的发现不同，PCR的表现优于Serma网络 et al. (2014)， PCR的表现优于SCR。我们还注意到，对所有层进行调优工作，其结果明显优于仅对完全连接的层进行微调(如Serma网络 et al.， 2014)。在这些实验中，最小的图像端被设置为S = 384;S = 256的结果显示了相同的行为，并没有显示为简洁。

表8:对简化的测试协议进行不同修改的本地化错误:从单个中心图像作物中预测边界框，并使用地真类。所有的卷积网络层(除了最后一个)都有配置D(表1)，而最后一层执行的是单级回归(SCR)或每级回归(PCR)。

全面的评估。我们已经确定了最佳的本地化设置(PCR，对所有层进行微调)，现在我们将它应用到完全成熟的场景中，在这个场景中，使用我们的最佳性能分类系统(第4.5节)和多个densely计算的边界框预测，使用Serma网络 et al.(2014)的方法合并了多个densely计算的边界框预测。从表9可以看出，将本地化的卷积网络应用到整个图像中，与使用中心作物(表8)相比，可以显著提高结果(表8)，尽管使用了前5种预测的类标签而不是ground truth。类似于分类任务(第4节)，在多个尺度上进行测试并结合多个网络的预测进一步提高了性能。

与艺术的状态比较 我们将我们最好的本地化结果与表10中的状态进行比较。通过25.3%的测试误差，我们的“VGG”团队获得了ILSVRC-2014 (Russakovsky et al.， 2014)的本地化挑战。值得注意的是，我们的结果比ILSVRC-2013的优胜者(Serma网络 et al.， 2014)的结果要好得多，尽管我们使用了更少的量表，并没有使用他们的分辨率增强技术。我们设想，如果将此技术纳入我们的方法，就可以实现更好的本地化性能。这表明了我们非常深的对流带来的性能提升——我们通过一个更简单的本地化方法得到了更好的结果，但是一个更强大的表示。

B 概括了非常深刻的特征。

在前面的部分中，我们讨论了对ILSVRC数据集上非常深的对流的训练和评估。在这一节中，我们将评估我们的卷积网络s，即在ILSVRC上预先训练的特性。

表10:与ILSVRC本地化的艺术状态比较。我们的方法来标示“VGG”

作为其他较小数据集上的特征提取器，由于过度拟合，从头开始训练大型模型是不可行的。最近，对这种用例有很多的兴趣(Zeiler & Fergus, 2013;多纳休et al .,2013;Razavian et al .,2014;Chatfield et al.， 2014年)，因为它发现了在ILSVRC上学习的深度图像表示，对其他数据集进行了广泛的推广，在这些数据集上，它们的表现比手工制作的表现要好得多。在这一系列的工作之后，我们会调查我们的模型是否比在最先进的方法中使用的更浅的模型有更好的表现。在此评估中，我们考虑了两种模型，其分类性能最好的是ILSVRC(第4节)-配置“网络-D”和“网络-E”(这是我们公开提供的)。

为了利用对流网络，对ILSVRC进行预处理，在其他数据集上进行图像分类，我们删除了最后一个全连通的层(它执行了1000-way ILSVRC分类)，并将penultimate层的4096-D激活作为图像特征，它们被聚合在多个位置和尺度上。得到的图像描述符是l2 - norm化的，并与一个线性SVM分类器结合，在目标数据集上进行训练。为简单起见，预先训练的对流净权值保持不变(不进行微调)。

特征的聚合以类似于我们的ILSVRC评估程序(第3.2节)进行。也就是说，首先对图像进行重新扫描，使其最小的边等于Q，然后在图像平面上密集地应用网络(当所有的权重层都被视为卷积的时候，这是可能的)。然后，我们在生成的feature map上执行全局平均池，生成一个4096-D图像描述符。然后将描述符与水平翻转图像的描述符进行平均。如第4.2节所示，对多尺度的评估是有益的，因此我们提取了多个尺度的特征，由此产生的多尺度特征可以是叠加的，也可以是跨尺度的集合。堆叠允许随后的分类器学习如何最优地组合图像统计在一系列尺度上;然而，这是以增加的描述符维数为代价的。我们在下面的实验中回到这个设计选择的讨论。我们还评估了特征的后期融合，使用两个网络计算，这是通过叠加各自的图像描述符来完成的。

表11:与2007年vocs -2012、Caltech-101和Caltech-256的图像分类中的艺术状态比较。我们的模型被记为“VGG”。使用在扩展的ILSVRC数据集(2000类)上预先训练的卷积网络s实现了标记

关于vocs -2007和vocs -2012的图像分类 我们首先对PASCAL vocs -2007和vocs -2012基准测试的图像分类任务进行评估(Everingham et al.， 2015)。这些数据集分别包含10K和22.5K的图像，每个图像都有一个或多个标签标注，对应20个对象类别。VOC的组织者提供了预先定义的培训、验证和测试数据(vocs -2012的测试数据不是公开的;相反，提供了一个官方评估服务器。识别性能是用平均平均精度(mAP)来度量的。

最明显的是，通过检查vocs -2007和vocs -2012的验证集的性能，我们发现聚合图像描述符，在多个尺度上计算，通过平均执行与堆叠相似的聚合。我们假设这是因为在VOC数据集里，对象出现在不同的尺度上，所以没有特定的特定尺度的语义，分类器可以利用它。从平均的一个好处不夸大描述符维度,我们能够聚合图像描述符在一个广泛的尺度:问∈{ 256、384、512、256、384 }。值得注意的是，在较小范围内的{256,384,512}的改进相当边缘(0.3%)。

报告了测试集的性能，并与表11中的其他方法进行了比较。我们的网络“网络-D”和“网络-E”在VOC数据集上表现出相同的性能，它们的组合稍微改善了结果。我们的方法在图像表示上设置了新的艺术状态，在ILSVRC数据集上进行了预处理，超过了Chatfield et al.(2014)的最佳结果，超过了6%。值得注意的是，Wei et al.(2014)的方法，在vocs -2012上获得了1%的更好的地图，在2000级的ILSVRC数据集上进行了预培训，该数据集包含了额外的1000个类别，语义上接近VOC数据集。它还得益于与一个对象检测辅助的分类管道的融合。

Caltech-101和Caltech-256的图像分类 在本节中，我们将对Caltech-101 (Fei-Fei et al.， 2004)和Caltech-256 (Griffin et al.， 2007)的图像分类基准进行非常深入的评估。Caltech-101包含9K图像，被标记为102个类(101个对象类别和一个背景类)，而Caltech-256则更大，有31K图像和257个类。对这些数据集的标准评估协议是生成几个随机分成训练和测试数据，并报告平均识别性能，这是通过平均类回忆来衡量的(这可以补偿每个类中不同数量的测试图像)。跟随Chatfield et al. (2014);Zeiler &费格斯(2013);他等人(2014)，在Caltech-101上，我们生成了3个随机分成训练和测试数据，每个分割包含30个每个类的训练图像，每个类最多有50个测试图像。在Caltech-256上，我们还生成了3个分支，每个分支包含每个类的60个训练图像(其余部分用于测试)。在每一个分割中，20%的训练图像被用作超参数选择的验证集。

我们发现，与VOC不同的是，在加州理工学院的数据集中，描述符的堆叠在多个尺度上进行计算，其表现优于平均或混搭。这可以解释为，在Caltech图像中，对象通常占据整个图像，所以多尺度的图像特征在语义上是不同的(捕获整个对象和对象部分)，并且堆叠允许分类器利用这些特定于尺度的表示。我们使用三个尺度问∈{ 256、384、512 }。

我们的模型是相互比较的，在表11中是艺术的状态。可以看出，19层的网线比16层的网络-D要好，它们的结合进一步提高了性能。在Caltech-101上，我们的陈述与他等人(2014)的方法是有竞争的，然而，在vocs -2007上，这一方法的表现要比我们的网差得多。在Caltech-256上，我们的特性超过了art的状态(Chatfield et al.， 2014)，幅度很大(8.6%)。

行动分类voc - 2012 我们还评估了我们在PASCAL vocs -2012行动分类任务(Everingham et al.， 2015)中表现最佳的图像表示(网络-D和网络-E特征的叠加)，该任务包括从单个图像中预测一个动作类，给出了执行动作的人的边界框。数据集包含4.6K训练图像，标记为11个类。与vocs -2012对象分类任务类似，使用mAP来度量性能。我们考虑了两种训练设置:(i)计算整个图像的对流特性，忽略提供的边界框;(ii)计算整个图像和所提供的包围盒的特征，并将其叠加以获得最终的表示。结果与表12中的其他方法相比较。

我们的代表在不使用提供的边界框的情况下，实现了VOC行为分类任务的艺术状态，并且在使用图像和边框时，结果得到了进一步的改善。与其他方法不同的是，我们没有采用任何特定于任务的启发式方法，而是依赖于非常深层卷积特性的表示能力。

其他识别任务 自从我们的模型公开发布以来，他们一直被研究团体积极地用于广泛的图像识别任务，始终表现出比更肤浅的表现。例如，Girshick et al.(2014)通过将Krizhevsky et al.(2012)的卷积网络替换为16层模型，实现了对象检测结果的状态。在Krizhevsky等人的更浅层建筑中获得类似的收益。（2012）已经在语义分割（Long等，2014），图像标题生成（Kiros等，2014; Karpathy＆Fei-Fei，2014），纹理和材料识别（Cimpoi等，2014;Bell et al., 2014).

表12:对vocs -2012的单图像动作分类的艺术状态进行比较。我们的模型被记为“VGG”。通过对扩展的ILSVRC数据集(1512类)进行预处理，实现了标记*的结果。

C文件修订

在这里，我们列出了主要的论文修订清单，列出了为方便读者而进行的实质性改动。

v1初始版本。介绍了在ILSVRC提交前进行的实验。

v2增加了后提交的ILSVRC实验，通过使用scale抖动增强了训练集的增强，从而提高了性能。

v3在PASCAL VOC和Caltech图像分类数据集上添加了一般化实验(附录B)。用于这些实验的模型是公开的。

V4该文件被转换为ICLR-2015提交格式。此外，还增加了用于分类的多种作物的试验。

v6摄像机准备的ICLR-2015会议论文。将净B与浅网相比较，并将结果与PASCAL VOC行为分类基准进行比较。

��3��

读书报告-组号 13组题目 VERY DEEP CONVOL

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION

摘要

1介绍