在”易图秒懂の深度学习诞生 发展篇“里面, 我们谈到Bengio把梯度下降的问题引到Hinton所在的圈子里。 并且自己做了一个能够通过Pretraining来避免梯度下降问题的复杂模型, 效果很好, 于是命名了深度学习。
前言
前面提到Hinton和微软语言识别小组的合作,让他意识到深度学习的重要应用意义,这个合作是他的学生通过实习带来的。 而另外, 深度学习的爆发性效应, 也是他的两个学生Alex和IIya带来的。 他们参加了 ImageNet Large Scale Visual Recognition Competition (ILSVRC) 2012图像识别竞赛, 大获全胜, 并且远超过第二名。 他们提出AlexNet网络, 这个网络是基于他们师兄Lecun的LeNet 5层模型, 加上他们老板Hinton基于梯度消失问题研究的RELU激活函数, 和Dropout正则化修正过拟合的方法。 当然, 他们自己为了加速运算,还用了GPU来做实验, 结果效果意外的好。 一下子引起全球轰动。
那么这个AlexNet是怎么做到的呢?为什么LeNet没有做到呢?首先说一下Lecun, 他受到导师Hinton的影响一直是神经网络的坚实研究者,他和Bengio还有导师Hinton是深度学习三巨头。 (参考”燕乐存上海行“)
一图抵千言
Lecun继承了Fukushima的Neognitron卷积模型, 并且设计出了5层, 并应用到手写体的识别上面。 但是效果一直难以超过他同事研究的SVM。虽然他和Bengio一起公事了很多图像方面的工作,但他并没有意识到梯度消失的影响。
但是Hinton发明的一系列深度学习的技巧集成到LeNet之后, 并且利用了GPU加速就带来了意想不到的效果。 从此开启了深度学习的刷新模式。 以后在每年的ILSVRC,这个基于李飞飞的ImageNet数据集的图像识别任务一直刷新到超越人!当然从此GPU也成了深度学习的标配。 让Nvidia的股价飙升!
2012至2014, 深度网络变得更加强大。Google设计出模块化工作, 做成基于Inception模块的网中网结构, 再后来ResNet研发的残差模块的深栈结构刷新了人们对深度学习的认知。 最近Google又提出Multimodel来统一语音的LSTM,图像的CNN的应用。
至此,语音识别的LSTM,图像识别的CNN,还有自然语言处理的NNLM模型都发力了。 深度学习在非结构化数据方面大放异彩!
小结
前面我已经对结构化数据,尤其表数据学习的机器学习方向进行人物图谱关联。 本篇概述了深度学习在非结构化数据学习(图像,音频,视频, 文本)方面的大放异彩!
相关话题:
网友评论