作为深度学习的代表算法之一,卷积神经网络(Convolutional Neural Networks,CNN)在计算机视觉、分类等领域上,都取得了当前最好的效果。
卷积神经网络的前世今生
卷积神经网络的发展,最早可以追溯到1962年,Hubel和Wiesel对猫大脑中的视觉系统的研究。1998年,著名计算机科学家Yann LeCun在论文Gradient-Based Learning Applied to Document Recognition中提出了LeNet-5,将BP算法应用到神经网络结构的训练上,形成了当代卷积神经网络的雏形。直到2012年,AlexNet网络出现之后,神经网络开始崭露头角。在Imagenet图像识别大赛中,Hinton组的论文ImageNet Classification with Deep Convolutional Neural Networks中提到的Alexnet引入了全新的深层结构和dropout方法,一下子把error rate从25%以上提升到了15%,一举颠覆了图像识别领域。此后卷积神经网络声名大噪并蓬勃发展,广泛用于各个领域,在很多问题上都取得了当前最好的性能。2015年深度学习领域的三巨头LeCun、Bengio、Hinton在Nature上发表一篇综述文章Deep Learning,系统地总结了深度学习的发展前世今生。在2016年,CNN再次给人们一个惊喜:谷歌研发的基于深度神经网络和搜索树的智能机器人“AlphaGo”在围棋上击败了人类,更惊喜的是谷歌在Nature专门发表了一篇文章来解释AlphaGo,文章名字为Mastering the game of Go with deep neural networks and tree search。随后利用了ResNet和Faster-RCNN的思想,一年后的Master则完虐了所有人类围棋高手,达到神一般的境界,人类棋手毫无胜机。后来又有很多复现的开源围棋AI,每一个都能用不大的计算量吊打所有的人类高手。
可以说,卷积神经网络是深度学习算法应用最成功的领域之一。
卷积神经网络百篇经典论文
研读卷积神经网络的经典论文,对于学习和研究卷积神经网络必不可缺。根据相关算法,AMiner从人工智能领域国际顶会/期刊中提取出“卷积神经网络”相关关键词,筛选并推荐了100篇经典必读论文。这100篇论文大多发表于2015年至2019年间,主要发表在CVPR、ICCV、ICML、NeuIPS等计算机视觉顶级学术会议上。在该领域发表论文最多的学者中,“神经网络之父”、“深度学习鼻祖”Hinton与Bengio双双上榜,为深度学习研究持续贡献了力量。按照这100篇经典论文的被引用量,我们挑选了其中的TOP10作简单评述。
1. Fully Convolutional Networks for Semantic Segmentation(CVPR2015)
引用量:13136
论文作者:Jonathan Long,Evan Shelhamer,Trevor Darrell
作者单位:UC Berkeley
卷1.png本篇论文是神经网络大神Jonathan Long与他的博士同学 Evan Shelhamer、导师Trevor Darrell的代表作,获得了 CVPR 2015 年最佳论文奖。该文的核心贡献,在于提出了全卷积网络(FCN)的概念,它是一种可以接受任意大小图像并输出与输入等大的图像的全卷积神经网络。CNN近年来发展迅速,在图像领域更是主流方法,驱动着物体检测、关键点检测等的发展,但CNN对于图像语义分割却在时间和精度方面都表现不好。本文提出了FCN,针对语义分割训练一个端到端,点对点的网络,达到了state-of-the-art。这是第一次训练端到端的FCN,用于像素级的预测;也是第一次用监督预训练的方法训练FCN。
2. Convolutional Neural Networks for Sentence Classification(EMNLP 2014)
引用量:5978
论文作者:Yoon Kim
作者单位:纽约大学
卷3.png2012年在深度学习和卷积神经网络成为图像任务明星之后, 2014年TextCNN诞生于世,成为了CNN在NLP文本分类任务上的经典之作。TextCNN提出的目的在于,希望将CNN在图像领域中所取得的成就复制于自然语言处理NLP任务中。
TextCNN是一种采用卷积神经网络(CNN)提取文本n-gram特征,最大池化,全连接然后进行分类的一种新型模型。它在当时对文本分类SVM老大的位置提出了挑战,虽然当时TextCNN模型效果没有完全超过SVM,但CNN的热潮使得TextCNN极受追捧,成为NLP文本分类任务的经典模型。
3. Large-Scale Video Classification with Convolutional Neural Networks(CVPR2014)
引用量:4145
论文作者:Andrej Karpathy,George Toderici,Sanketh Shetty,Thomas Leung,Rahul Sukthankar,Li Fei-Fei
作者单位:谷歌,斯坦福大学
卷33.png该文研究了多种方法来扩展CNN在时域上的连通性,以利用局部时空信息,作者提出一个多分辨率、新颖的框架的方式来加快训练(计算效率)。
文章的贡献点主要有三个:
1.将CNN拓展,用于视频分类;
2.使用两种不同的分辨率的帧分别作为输入,输入到两个CNN中,在最后的两个全连接层将两个CNN统一起来;两个流分别是低分辨率的内容流和采用每一个帧中间部分的高分辨率流;
3.将从自建数据库学习到的CNN结构迁移到UCF-101数据集上面。
作者提出的模型与单帧模型相比性能有了显著提升,为此作者进一步研究了其中表现最佳的模型的泛化能力,即通过在UCF-101数据集上重新训练顶层,相比基准模型性能显著改善。
4. How transferable are features in deep neural networks? (NIPS 2014)
引用量:3414
论文作者:Jason Yosinski,Jeff Clune,Yoshua Bengio,Hod Lipson
作者单位:卡耐基梅隆大学,怀俄明大学,蒙特利尔大学
卷4.png本文是Bengio团队关于迁移学习(Transfer Learning)的研究,文章通过研究特征的可迁移性来对这个从泛化的特化的过程进行评估,对于研究深度神经网络特征的可迁移性具有重要意义。本文实验了深度神经网络中不同层神经元的泛化性能和特异性,模型的迁移能力主要受到两个因素的影响:1)深度模型在越深的层,其专业性(specialization)越强,即越只能完成特定任务,这使得深度模型学习到的深层特征迁移性很差;2)模型在优化过程中,层与层之间的参数的优化是有关联性,当固定浅层的权值,来训练高层权值时,会打破这种关联性,使得模型的能力变差,泛化能力也变差。上述两个问题在深度神经网络的不同层发生占比不一样。文章还证明了利用训练好的迁移特征,初始化一个新网络,不论初始化几层,都能够对增强模型起到最终的效果。
5. Learning Spatiotemporal Features with 3D Convolutional Networks(ICCV2015)
引用量:2711
论文作者:Du Tran,Lubomir Bourdev,Rob Fergus,Lorenzo Torresani,Manohar Paluri
作者单位:Facebook,达特茅斯学院
卷5.png这篇文章介绍了在大规模有监督的视频数据集下,训练出了一种简单且高效的三维卷积神经网络的方法来学习时空特征。3D ConvNets的特征将与视频中的对象、场景和动作相关的信息封装起来,使其对各种任务有用,而无需为每个任务分配模型。3D卷积网络的优势有三点:1)同2D卷积网络相比,3D卷积网络更适合时空特征的学习;2)3D卷积网络的每一层的卷积核的结构是齐次的,并且在很多结构中都适用; 3)将学到的特征成为C3D,带有一个简单的线性分类器,在4个不同的benchmarks上测试都实现了最好的性能,并且在另外的2个benchmarks上与目前的最好的方法相媲美。
6. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation
引用量:2373
论文作者:Vijay Badrinarayanan,Alex Kendall,Roberto Cipolla
作者单位:剑桥大学
卷6.png本文提出了一种用于像素级语义分割的深度全卷积神经网络结构SegNet。SegNet的创新点在于译码器对输入的低分辨率特征图的上采样处理方式。具体来讲,解码器利用在max-pooling过程中计算的池化indices,计算对应的编码器的非线性上采样。这个操作就省去了上采样过程的学习。上采样后的map是稀疏的,再用可学习的filter通过卷积计算稠密的特征图。作者比较了文中的结构与FCN、DeepLab-LargeFOV和DeconvNet结构。由于SegNet的设计初衷来源于场景理解(scene understanding),因此在内存和计算时间上效率很高,可学习参数量也比其他结构小,可以用SGD端到端训练。在道路场景和SUN RGB-D室内场景下进行了排名。
7. XNOR-Net: ImageNet Classification Using Binary Convolutional Neural Networks(ECCV2016)
引用量:1713
论文作者:Mohammad Rastegari,Vicente Ordonez,Joseph Redmon,Ali Farhadi
作者单位:艾伦人工智能研究所,华盛顿大学
卷7.png该文针对标准卷积神经网络提出了两种有效的近似网络:二元权重网络和XNOR网络。二元权重网络中,卷积核用两个值来近似表示,从而节省32倍的存储空间。在XNOR网络中,卷积核和卷积层输入都是用两个值(1和-1)表示的。 XNOR网络主要使用二元运算进行卷积运算。这使得卷积操作速度提高了58倍,节省了32倍的内存。 XNOR网络实现了在CPU(而不是GPU)上实时运行最先进网络的可能。我们的二元权值网络简单、准确、高效,并且能够处理具有挑战性的视觉任务。我们在ImageNet分类任务上评估我们的方法。 AlexNet二元权值版本的分类准确性与全精度AlexNet相同。我们将我们的方法与最近的网络二值化方法BinaryConnect和BinaryNets进行比较,并且在ImageNet上以大幅优势胜过这些方法,超过了top-1 16%的精度。
8. Character-level Convolutional Networks for Text Classification(NIPS2015)
引用量:1701
论文作者:Xiang Zhang,Junbo Zhao,Yann LeCun
作者单位:纽约大学
卷8.png在这篇论文中,作者将字符级的文本当作原始信号,并且使用一维的卷积神经网络来处理它。研究表明,单词嵌入表示可以直接用于卷积神经网络,而无需考虑语言的语法或语义结构。作者发现,当训练大规模数据集时,深度卷积神经网络并不需要单词层面的意义(包括语言的语法和语义),这是非常激动人心的工程简化,因为不管什么语言,它都是由字符组成的,因此这对于构建跨语言的系统至关重要。还有一个好处,对于异常的字符组成(比如拼写错误)和表情符,该模型依然能够应付。
9. Towards End-To-End Speech Recognition with Recurrent Neural Networks(ICML2014)
引用量:1339
论文作者:Alex Graves,Navdeep Jaitly
作者单位:DeepMind,多伦多大学
卷9.png本文提出了一种语音识别系统,该系统不需要中间语音表示,直接用文本对音频数据进行转录。该系统是基于深度双向LSTM递归神经网络结构和连接主义者的时间分类目标函数相结合的。引入了目标函数的修正,训练网络最小化任意转录损失函数的期望。这允许对单词错误率进行直接优化,即使在没有词汇或语言模型的情况下也是如此。该系统在没有先验语言信息的《华尔街日报》语料库中实现了27.3%的错误率,在只使用允许单词的词典的情况下实现了21.9%的错误率,在使用trigram语言模型的情况下实现了8.2%的错误率。将网络与基线系统相结合进一步将错误率降低到6.7%。
10. DRAW: A Recurrent Neural Network For Image Generation(ICML 2015)
引用量:1186
论文作者:Karol Gregor,Ivo Danihelka,Alex Graves,Danilo Jimenez Rezende,Daan Wierstra
作者单位:Google DeepMind
卷10.png本文出自Google DeepMind实验室,介绍了一种可应用于图像生成的Deep Recurrent Attentive Writer(DRAW)神经网络模型,此模型能够生成高质量的自然图像,并提高了当前在MNIST数据集上生成模型表现的最好水平。此外,使用SVHN数据集训练的DRAW模型生成的图片,裸眼无法分辨其与真实数据的区别。
更多卷积神经网络必读论文请查阅”必读论文“模块“
相关阅读
网友评论