卷积神经网络发展

作者: 王胜广 | 来源:发表于2018-07-20 17:04 被阅读185次

CNN网络简介
卷积神经网络学习（一）滤波器意义
tensorflow初探十之神经网络发展和气tensorflow
CS231n 卷积神经网络: 架构, 卷积/池化层(上)
视觉
深度学习算法通俗
datawhale-task05（卷积神经网络基础；leNet；
无知的一些入门的东西
卷积神经网络
再战机器学习—卷积神经网络

ILSVRC（ImageNet大规模视觉识别挑战赛）

ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释，以指示图片中的对象;在至少一百万个图像中，还提供了边界框。ImageNet包含2万多个类别; 第三方图像URL的注释数据库可以直接从ImageNet免费获得;自2010年以来，ImageNet项目每年举办一次软件比赛，即ImageNet大规模视觉识别挑战赛（ILSVRC），软件程序竞相正确分类和检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破，被广泛认为是2010年的深度学习革命的开始。

ImageNet大规模视觉识别挑战赛，计算机视觉领域的“奥赛”，人工智能“世界杯”。包括物体检测（识别）、物体定位、视频物体检测三个大类的竞赛。2012年在解决ImageNet挑战方面取得了巨大的突破，被广泛认为是深度学习革命的开始。2017届大规模视觉识别挑战赛（ILSVRC）将是最后一届，以后的比赛将会超越“识别”，往“理解”上发展。

大多数冠军模型均为 model ensemble ,多模型融合。
The data for the classification and localization tasks will remain unchanged from ILSVRC 2012
ILSVRC 物体识别

年份	机构	模型名称	层数	参数数量	Top5错误率
2012	多伦多大学（神经网络之父Hinton的学生 Alex）	AlexNet	8	6000万	15.3%
2013	纽约大学Matthew Zeiler团队	ZF Net	8	接近AlexNet	14.8%
2014	Google	GoogLeNet(Inception-v1)	22	500万	6.67%
2015	微软	ResNet	152	与特定网络结合	3.57%

年份	机构	模型名称	层数	参数数量	Top5错误率
2014分类比赛第二	牛津大学	VGGNet	19	140M	3.57%

SVM模型参数1亿6000万
2010及2011年为传统算法，2016,2017未提出新的比较有影响力的模型或论文。
2016 冠军几乎被中国团队包揽：CUImage（商汤和港中文），Trimps-Soushen（公安部三所，NUIST（南京信息工程大学）。
2017 南京信息工程大学和帝国理工学院组成的 BDAT 团队、加坡国立大学与奇虎360（颜水成）合作团队、伦敦帝国理工学院和悉尼大学团队。

人眼识别准确率5.1%

神经网络发展，网络结构演化

image.png

神经网络发展

Perceptron（感知机）于1957年由Frank Resenblatt提出，而Perceptron不仅是卷积网络，也是神经网络的始祖。
Neocognitron（神经认知机）是一种多层级的神经网络，由日本科学家Kunihiko Fukushima于20世纪80年代提出，具有一定程度的视觉认知的功能，并直接启发了后来的卷积神经网络。
LeNet-5由CNN之父Yann LeCun于1997年提出，7层网络，首次提出了多层级联的卷积结构，可对手写数字进行有效识别。LeNet5中的诸多特性现在依然在state-of-the-art卷积神经网络中使用，可以说LeNet5是奠定了现代卷积神经网络的基石之作。
可以看到前面这三次关于卷积神经网络的技术突破，间隔时间非常长，需要十余年甚至更久才出现一次理论创新。

2012年，神经网络之父，Hinton的学生Alex依靠8层深的卷积神经网络一举获得了ILSVRC 2012比赛的冠军，且准确率远超第二名（top5 error rate15.3%，第二名为26.2%），瞬间点燃了卷积神经网络研究的热潮。AlexNet成功应用了ReLU激活函数、Dropout、最大覆盖池化、LRN层、GPU加速等新技术，并启发了后续更多的技术创新，卷积神经网络的研究从此进入快车道。

AlexNet包含了6亿3000万个连接，6000万个参数和65万个神经元，拥有5个卷积层，其中3个卷积层后面连接了最大池化层，最后还有3个全连接层。AlexNet中包含了几个比较新的技术点，也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。在AlexNet之后，我们可以将卷积神经网络的发展分为两类，一类是网络结构上的改进调整（图6-18中的左侧分支），另一类是网络深度的增加（图18中的右侧分支）。

2013年ILSVRC的冠军模型ZFNet的网络结构，是在AlexNet上进行了微调。

2014年的Google Inception Net V1，提出了Inception Module这个可以反复堆叠的高效的卷积网络结构，并获得了当年ILSVRC比赛的冠军。Inception V1有22层深，比AlexNet的8层或者VGGNet的19层还要更深。但其计算量只有15亿次浮点运算，同时只有500万的参数量，仅为AlexNet参数量（6000万）的1/12，却可以达到远胜于AlexNet的准确率。NIN利用Global average pooling去掉了FC layer, 大大减少了模型大小，本身的网络套网络的结构，也激发了后来的GoogLeNet里面的各种sub-network和inception结构的设计

2014年季军模型VGGNet是Oxford大学Visual Geometry Group提出的，目的是研究深度对卷积网络的影响。通过反复堆叠33的小型卷积核和22的最大池化层，VGGNet成功地构筑了16~19层深的卷积神经网络。两个33的卷积层串联相当于1个55的卷积层，即一个像素会跟周围55的像素产生关联，可以说感受野大小为55。而3个33的卷积层串联的效果则相当于1个77的卷积层。除此之外，3个串联的33的卷积层，拥有比1个77的卷积层更少的参数量，只有后者的55%。
最重要的是，3个33的卷积层拥有比1个77的卷积层更多的非线性变换（前者可以使用三次ReLU激活函数，而后者只有一次），使得CNN对特征的学习能力更强。

2015年初的Inception V2提出了Batch Normalization，大大加速了训练过程，并提升了网络性能。2015年年末的Inception V3则继续优化了网络结构，提出了Factorization in Small Convolutions的思想，分解大尺寸卷积为多个小卷积乃至一维卷积。

2015冠军模型ResNet（残差网络）
ResNet（Residual Neural Network）由微软研究院的Kaiming He等4名华人提出，通过使用Residual?Unit成功训练152层深的神经网络，在ILSVRC 2015比赛中获得了冠军，取得3.57%的top-5错误率，同时参数量却比VGGNet低，效果非常突出。

ResNet的结构可以极快地加速超深神经网络的训练，模型的准确率也有非常大的提升。
ResNet最初的灵感出自这个问题：在不断加神经网络的深度时，会出现一个Degradation的问题，即准确率会先上升然后达到饱和，再持续增加深度则会导致准确率下降。
传统的卷积层或全连接层在信息传递时，或多或少会存在信息丢失、损耗等问题。ResNet在某种程度上解决了这个问题，通过直接将输入信息绕道传到输出，保护信息的完整性，整个网络则只需要学习输入、输出差别的那一部分，简化学习目标和难度。
未加残差结构时，学习映射为H(x)，但是H(x)不容易学；加上参加结构后，学习映射变为F(x)=H(x)−x，学习F(x)比学习H(x)容易，那么通过学习F(x)来得到H(x)=F(x)+x，这就是residual结构。