ILSVRC(ImageNet大规模视觉识别挑战赛)
ImageNet项目是一个用于视觉对象识别软件研究的大型可视化数据库。超过1400万的图像URL被ImageNet手动注释,以指示图片中的对象;在至少一百万个图像中,还提供了边界框。ImageNet包含2万多个类别; 第三方图像URL的注释数据库可以直接从ImageNet免费获得;自2010年以来,ImageNet项目每年举办一次软件比赛,即ImageNet大规模视觉识别挑战赛(ILSVRC),软件程序竞相正确分类和检测物体和场景。 ImageNet挑战使用了一个“修剪”的1000个非重叠类的列表。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是2010年的深度学习革命的开始。
ImageNet大规模视觉识别挑战赛,计算机视觉领域的“奥赛”,人工智能“世界杯”。 包括物体检测(识别)、物体定位、视频物体检测三个大类的竞赛。2012年在解决ImageNet挑战方面取得了巨大的突破,被广泛认为是深度学习革命的开始。2017届大规模视觉识别挑战赛(ILSVRC)将是最后一届,以后的比赛将会超越“识别”,往“理解”上发展。
大多数冠军模型均为 model ensemble ,多模型融合。
The data for the classification and localization tasks will remain unchanged from ILSVRC 2012
ILSVRC 物体识别
年份 | 机构 | 模型名称 | 层数 | 参数数量 | Top5错误率 |
---|---|---|---|---|---|
2012 | 多伦多大学(神经网络之父Hinton的学生 Alex) | AlexNet | 8 | 6000万 | 15.3% |
2013 | 纽约大学Matthew Zeiler团队 | ZF Net | 8 | 接近AlexNet | 14.8% |
2014 | GoogLeNet(Inception-v1) | 22 | 500万 | 6.67% | |
2015 | 微软 | ResNet | 152 | 与特定网络结合 | 3.57% |
年份 | 机构 | 模型名称 | 层数 | 参数数量 | Top5错误率 |
---|---|---|---|---|---|
2014分类比赛第二 | 牛津大学 | VGGNet | 19 | 140M | 3.57% |
SVM模型参数1亿6000万
2010及2011年为传统算法,2016,2017未提出新的比较有影响力的模型或论文。
2016 冠军几乎被中国团队包揽:CUImage(商汤和港中文),Trimps-Soushen(公安部三所,NUIST(南京信息工程大学)。
2017 南京信息工程大学和帝国理工学院组成的 BDAT 团队、加坡国立大学与奇虎360(颜水成)合作团队、伦敦帝国理工学院和悉尼大学团队。
人眼识别准确率5.1%
神经网络发展,网络结构演化
- 重要论文翻译
- 9篇重要的深度学习论文(上)
- 9篇重要的深度学习论文(上)
- CNN浅析和历年ImageNet冠军模型解析
- ILSVRC历届冠军论文笔记
- 从Inception v1到Inception-ResNet,一文概览Inception家族的「奋斗史」
- 谷歌Inception网络中的Inception-V3到Inception-V4具体作了哪些优化? - 徐亮的回答 - 知乎
Perceptron(感知机)于1957年由Frank Resenblatt提出,而Perceptron不仅是卷积网络,也是神经网络的始祖。
Neocognitron(神经认知机)是一种多层级的神经网络,由日本科学家Kunihiko Fukushima于20世纪80年代提出,具有一定程度的视觉认知的功能,并直接启发了后来的卷积神经网络。
LeNet-5由CNN之父Yann LeCun于1997年提出,7层网络,首次提出了多层级联的卷积结构,可对手写数字进行有效识别。LeNet5中的诸多特性现在依然在state-of-the-art卷积神经网络中使用,可以说LeNet5是奠定了现代卷积神经网络的基石之作。
可以看到前面这三次关于卷积神经网络的技术突破,间隔时间非常长,需要十余年甚至更久才出现一次理论创新。
2012年,神经网络之父,Hinton的学生Alex依靠8层深的卷积神经网络一举获得了ILSVRC 2012比赛的冠军,且准确率远超第二名(top5 error rate15.3%,第二名为26.2%),瞬间点燃了卷积神经网络研究的热潮。AlexNet成功应用了ReLU激活函数、Dropout、最大覆盖池化、LRN层、GPU加速等新技术,并启发了后续更多的技术创新,卷积神经网络的研究从此进入快车道。
AlexNet包含了6亿3000万个连接,6000万个参数和65万个神经元,拥有5个卷积层,其中3个卷积层后面连接了最大池化层,最后还有3个全连接层。AlexNet中包含了几个比较新的技术点,也首次在CNN中成功应用了ReLU、Dropout和LRN等Trick。在AlexNet之后,我们可以将卷积神经网络的发展分为两类,一类是网络结构上的改进调整(图6-18中的左侧分支),另一类是网络深度的增加(图18中的右侧分支)。
2013年ILSVRC的冠军模型ZFNet的网络结构,是在AlexNet上进行了微调。
2014年的Google Inception Net V1,提出了Inception Module这个可以反复堆叠的高效的卷积网络结构,并获得了当年ILSVRC比赛的冠军。Inception V1有22层深,比AlexNet的8层或者VGGNet的19层还要更深。但其计算量只有15亿次浮点运算,同时只有500万的参数量,仅为AlexNet参数量(6000万)的1/12,却可以达到远胜于AlexNet的准确率。NIN利用Global average pooling去掉了FC layer, 大大减少了模型大小,本身的网络套网络的结构,也激发了后来的GoogLeNet里面的各种sub-network和inception结构的设计
2014年季军模型VGGNet是Oxford大学Visual Geometry Group提出的,目的是研究深度对卷积网络的影响。通过反复堆叠33的小型卷积核和22的最大池化层,VGGNet成功地构筑了16~19层深的卷积神经网络。两个33的卷积层串联相当于1个55的卷积层,即一个像素会跟周围55的像素产生关联,可以说感受野大小为55。而3个33的卷积层串联的效果则相当于1个77的卷积层。除此之外,3个串联的33的卷积层,拥有比1个77的卷积层更少的参数量,只有后者的55%。
最重要的是,3个33的卷积层拥有比1个77的卷积层更多的非线性变换(前者可以使用三次ReLU激活函数,而后者只有一次),使得CNN对特征的学习能力更强。
2015年初的Inception V2提出了Batch Normalization,大大加速了训练过程,并提升了网络性能。2015年年末的Inception V3则继续优化了网络结构,提出了Factorization in Small Convolutions的思想,分解大尺寸卷积为多个小卷积乃至一维卷积。
2015冠军模型ResNet(残差网络)
ResNet(Residual Neural Network)由微软研究院的Kaiming He等4名华人提出,通过使用Residual?Unit成功训练152层深的神经网络,在ILSVRC 2015比赛中获得了冠军,取得3.57%的top-5错误率,同时参数量却比VGGNet低,效果非常突出。
ResNet的结构可以极快地加速超深神经网络的训练,模型的准确率也有非常大的提升。
ResNet最初的灵感出自这个问题:在不断加神经网络的深度时,会出现一个Degradation的问题,即准确率会先上升然后达到饱和,再持续增加深度则会导致准确率下降。
传统的卷积层或全连接层在信息传递时,或多或少会存在信息丢失、损耗等问题。ResNet在某种程度上解决了这个问题,通过直接将输入信息绕道传到输出,保护信息的完整性,整个网络则只需要学习输入、输出差别的那一部分,简化学习目标和难度。
未加残差结构时,学习映射为H(x),但是H(x)不容易学;加上参加结构后,学习映射变为F(x)=H(x)−x,学习F(x)比学习H(x)容易,那么通过学习F(x)来得到H(x)=F(x)+x,这就是residual结构。
网友评论