大家都知道深度学习的鼻祖Geoff Hinton, 传说, 他安静的办公室, 经常会突然传出一句很大声的自言自语, 就是我现在终于理解大脑怎么工作的啦(I understand how the brain works now!) 。
当江湖出现了独孤求败,求败的传说就弥漫在整个江湖!
Hinton的攒说
1. Others provetheorems. Geoff Hinton provesaxioms.
(Hinton至今不是ACM 和 IEEE的fellow, 但是他开创的深度学习已经俨然江湖第一大门派, 并且实践已经远远赶在了理论之前了。 )
2. Deep Belief Netsactually believe deeply in Geoff Hinton.
(DBN 是Hinton利用Pretraining突破VanishingGradient成功构建了深度restricted boltzmann machine, RBM,从此深度学习踏上历史舞台)
3. Geoff Hinton doesn't need tomakehidden units. They hide by themselves when heapproaches.
(Hinton发明了back propagation, BP算法, 让训练多层隐含层变得简洁高效, 还发明了contrastive divergence, CD, 让训练RBM的隐单元变得简洁高效)
4. Geoff Hinton doesn't disagree with you, hecontrastively diverges
(对的,就是这个CD算法, 基于Gibbs Sampling的思想, 做了近似, 极大的加速的收敛进程)
5. Geoff Hinton never takes theplane. He doesn't even take the hyperplane. He prefers to ride on aquasi-spherical Riemannian manifold.
(hyperplane暗指support vector machine, SVM,Hinton的博士后 Lecunn曾经搞过convolutional neural network, CNN, 但那时候没有对Vanishing Gradient问题和计算量大的问题解决,使得效果比SVM要差点, 但后来Hinton利用了deep learning模型和GPU计算,要远超SVM效果。 quasi-spherical Riemannian manifold可以暗指非凸问题(non-convex),quasi-spherical 是个概念, 就是把数据分布存在是一个假面去边界它。图模型发展到利用tensor analysis, 可以认为对非凸空间的建模, 而目前深度学习在这方面效果更好, 也可以看成,嘲讽SVM的核函数Kernels的解决方案)
6. Geoff Hinton doesn't needsupport vectors.He can support high-dimensional hyperplanes with hispinky finger.
(Hinton的深度学习模型远超SVM效果,竖起小指头就能把SVM干掉, )
7. A little-known fact about Geoff Hinton: he frequents Bayesians withprior convictions(with thanks to David Schwab).
(Hinton在和他的学生Radford Neal辩论的时候说,Geoff Hinton: Sorry Radford, my prior probability for you saying this is zero, so I couldn't hear what you said.所以暗示Hinton对Bayesian理论先验概率定理不完全认同,放弃了图模型, 好比和贝叶斯学者有了定罪。Radford Neal是Bayesian方面的大牛, 在Markov chain Monte Carlo,MCMC方面很有建树, 也是R 语言解释器pqR的作者。 另外提出者David Schwab是Northwestern Univ. 的助理教授, 他和Hinton在对分层训练的Renormalization方面不谋而合)
Radford Neal
David Schwab
8.Geoff Hinton discovered how the brain really works.Once a year for the last 25 years.
(Hinton在这个领域坚持了30年,对的, 有坚持了5年了, 从BP,RBM,图模型, CD,到深度学习, 每次都说: 对的, 我理解人脑怎么处理的了, 有个2分钟的Fun video对此有描述 http://my.tv.sohu.com/us/63298566/31267453.shtml )
9. Geoff Hinton once built a neural network thatbeatChuck NorrisonMNIST.
(MNIST, Mixed National Institute of Standards and Technology, 建的一个标准数据集合, 有60,000 训练图片 和 10,000测试图片,缩放到20x20 pixel的大小, Lecunn的早期CNN曾经在这个数据集手写体识别上败给了SVM,但是现在深度学效果甚至达到并且超过人的水平了, 这里Chuck Norris因为2005年因在肥皂剧中夸张的演出成为风靡一时的网络现象,网络上出现无数版本的“Norris Facts”,于是他成了全球恶搞的代表,看过李小龙的猛龙过江,对这个长相应该有点熟悉)
10. If you defy Geoff Hinton, he will maximize yourentropyin no time. Your freeenergywill be gone even before you reachequilibrium.
(暗示Hinton除了deep这个结构方面, 在学习上, 也有B可以对付你, 有哪些大招呢? Boltzmann在研究热力学的时候引入了boltzmann distribution,作为最早的Entropy的描述,但是没人理解, 后来他自杀了。 后来Hinton在研究Hopfield Networks的时候, 借用了它的能量定义和网络形式,但是引入了分组的思想, 并且把一个组设置成隐节点层,但是更新它的训练方式,基于boltzmann distribution引入了随机性, 提出boltzmann machine, 把Hopfiled Network的基于Gradient Decsent的训练修改称为了基于类似Gibbs Sampling的训练方式。 在随机分布下面, 寻找最优的话,simulated annealing 是最好的方式之一, 结合起来就是annealing Gibbs Sampling, 在这个训练下达到一个平衡最优点就叫Equilibrium state。 后来改进boltzmann machine,取消了组内链接, 把 这样就提出了Restricted Boltzmann machine,RBM, 进而把annealing Gibbs Sampling近似优化成了contrastive divergence, CD算法)
Hopfield Networks
11. Geoff Hinton can make you regret withoutbounds.
(Bounds是Vapnik建立的Vapnik–Chervonenkis theory, VC理论,这是被称为自PAC学习建立以来理论方面最伟大的进展, 自此以后每个算法都要讨论证明一下泛化能力的边界, without bounds是指神经网络和深度学习目前在VC理论证明泛化边界方面还没有突破,这里暗指, 虽然没有证明, 但是你要不用, 你会后悔的)
12. Geoff Hinton can make yourweight decay(your weight, but unfortunately not mine).
(weight decay是解决神经网络特别容易过拟合overfitting的理论, 经发现, 神经网络overfitting过程中链接权值weight逐渐变大,因此,为了避免出现overfitting, 是的权值衰减并收敛到较小的绝对值,而惩罚大的权值。因为大的权值会使得系统出现过拟合,降低其泛化性能。和dropout一起,是避免overfitting的思考。 它的具体实现可以通过L2 regularization正则化。 因为L2项的导数是weight它本身, 所以如果weight过大, 那么它的更新和它本身大小成正比, 这样导致指数衰减exponential decay)
13. Geoff Hinton goes directly tothird Bayes.
(一般说来bayes推理经过了两代: Naive Bayes, 和 Bayesian Networks, 这种说法暗指Hinton扬弃了图模型,进入了深度学习,或许, 这就是追求的第三代Bayes )
Naive Bayes
Bayesian Networks
14.Markov random fieldsthink Geoff Hinton isintractable.
(Markov random fields, MRF是图模型比较高级的形式,intractable可能暗示MRF本身就是没有好的解,可能需要用Variational Bayesian Inference近似逼近解, 暗指Hinton扬弃了图模型, 直接进入了更难对付的深度模型)
MRF
15. Geoff Hinton'sgeneralizations are boundless.
(可以有三层暗指: 暗指Hinton的深度学习模型自身的泛化学习能力很强;暗指指深度学习正在渗透到各行各业,无远佛界;再或者暗指前面提到的还没有证明理论上的泛化能力。)
小结, Hinton的传说还有很多, 大部分和SVM, 图模型, VC理论证明还有Deep Learning优化技巧有关。
参考:
https://www.quora.com/What-are-some-good-machine-learning-jokes
网友评论