科普深度学习

作者: DZNGGZGY | 来源:发表于2017-11-14 12:03 被阅读0次

科普深度学习
docker配置及使用
下月新书抢鲜看 | 11月新书重磅预告
深度学习系列——科普篇
深度学习（Deep Learning）（科普版）
学习机器学习需要理解的五个基本概念
学习效率怎样提高
强行科普深度学习第二弹
课堂中的“深度学习”
机器学习&深度学习知识体系——写过的博文（博客目录索引）

姓名：张艺伦学号：17011210282

转载自：https://mp.weixin.qq.com/s?__biz=MzI3MzMwNTQ2MA==&mid=2247483677&idx=1&sn=a2a72856823d7fdd55a5a3af7aac4351&scene=2&srcid=0625lqtXnsAHzxpbE0a2Vq04&from=timeline&isappinstalled=0#wechat_redirect，有删节

【嵌牛导读】：本文简单科普了何为深度学习，之后进一步介绍了深度学习的应用领域与遇到的一些挑战和问题。

【嵌牛鼻子】：科普，深度学习，应用与挑战。

【嵌牛提问】：什么是深度学习？它有哪些应用？存在哪些挑战？

【嵌牛正文】：

深度学习是一种神经网络，但与之前的相比，它的特点是使用了多层网络，能够学习抽象概念，同时融入自我学习，而且收敛相对快速。收敛快速可能是一种技巧，不见得是一个理论，但是有一批人通过它解决了很多重要的问题。

简单的来说，如果我们有很多笑脸，然后我们把笑脸的像素输入到一个神经网络里面去，最后你那儿希望让机器能识别这是姚明，那是马云，但是因为你这个深度学习的网络很深，要一次性学会这么多也会比较困难，所以就需要用到一个比较快速收敛的技巧——自我学习。通过自我学习，机器会逐步从大量的样本中逐层抽象出相关的概念，然后做出理解，最终做出判断和决策。

比如它可以有好几层的nodes和connection，经过这些nodes和connection，它在每一个层次会感知到不同的抽象特征，且一层比一层更为高级。这些都是通过自我学习实现的，而不是人教的。经过自我学习，从一个脸输进去再从同样的一个脸输出来，它就从里面抽象的学习到了一个人的脸重要特征。

经过这个学习之后，我再去做监督训练，看机器是否能够识别他们，如果不能，就在训练之后做微调。例如，如果我输入了马云的脸，出来的却是王宝强，那训练系统就会告诉你的网络说这个是错误的：这不是王宝强，这是马云。那接下来就是要进行微调，以便于下一次机器看到这个脸时，能识别出是马云的概率高一些，出来王宝强的概率低一些。

（图：深度学习科普）

但是这么一调也不能调的太过火了，要不然就会有overtraining的问题，我们就对整个数学公式做一点微调，用大量的数据，不断重复的去教它，经过不断微调，那么它就很可能在多次之后降低识别错误。

其实这一整套理论在二三十年前就已经有了，我在做我博士论文的时候，很多我的同事就在做训练神经网络的工作。

深度学习在最初的时候训练速度特别特别慢，所以比较难进入工业级别或者是应用级别，比如，你的手机是做不来这个的，因为它的速度实在太慢了。但经过这么多年，我们的计算机变的越来越快，另外也有了更多取巧的训练和识别做法，深度学习的应用可能性也发生了变化，它能被应用的领域越来越宽。多年前，我过早的进入了这一领域，但是现在，人工智能大规模应用的时机已经到了。

凭什么这么说？一个很简单的评估标准就是，我们的深度学习或者是任何的机器学习，它是不是超越人类的能力表现，如果超越的话，可能很多应用就会产生。比如在机场，如果机器识别人脸的准确度超过人，那么我们那些边防的人就可能不需要那么多。这并不是说机器不会犯错，而是说既然人不能比机器做的更好，那我不妨就用机器取代。

深度学习的应用领域

在过去的五年，深度学习的准确度从75%多提升到了97%左右，而人的表现准确率大概是95%。从95%到97%听起来只进步了2%，但实际上是把错误率降低了40%，这是很大的进步。如果这种进步持续，未来人工智能必然会超过人类的表现，同时也将可以进入一些可应用的领域。这就是今天我讲人工智能进入黄金时代的证据：在很多领域，也包括我们在face++做的人脸识别，包括了Apple、Google，科大讯飞的语音识别，它们的认知水平将在未来几年的时间内超过人类，而一旦超过人类，应用就会快速的增加。

（图：深度学习的应用领域举例）

深度学习首先可以应用于识别，包括人脸识别和语音识别等，这些可以用于安防，安检等。

人脸语音的数据来之不易，但是BI，商业的流程、互联网的数据却非常丰富。Google、百度很早就已经在搜索，在广告以及推荐系统里面充分使用了类机器学习技术，解决该推荐什么商品，一个商品怎么定价，在什么位置会卖的最多，应该把这样的产品卖给谁等问题。这一类的推销可以直接产生经济价值，而社交媒体营销，整个互联网广告，这每一个领域都是几十亿，几百亿甚至更大的市场。

将智能用于炒股其实也是一个不错的选择。在国内在国外，很多人都在做这方面创业的工作。利用智能，我可以随时来算一篮子股票和期货应该如何对冲，以寻求最大的利润。顶尖金融分析师也会做这个，但是他不可能把所有的股票的排列组合都考虑一遍，但是机器可以二十四小时不睡觉，每天都在算怎么能赚最多的钱。

除此之外，deep learning深度学习的技术可以把各种的因素都融合进来，比如这个公司的高管有没有变动，今天出了什么新闻，行业里还有没有什么变动……甚至你可以对一个智能系统说如果明天巴西发生了地震，什么股票该被购买，甚至你可以说发生了地震不要问我，你直接去买它就可以了。

银行保险方面，比如说贷款该不该审批，则无论是银行的贷款，还是P2P的贷款，都可以通过机器来判断，而且数据未必要来自银行内部。

医学方面，因为我自己生过病，也深深的受过这方面的痛苦，我也感觉到在今天的医生的判断真的不是最完善的。一方面医生有好有坏，顶尖的医生是非常少的；第二方面比如在癌症方面，它每一年都有新的药出来，那每个医生每天忙着看病人，就不见得有时间去研究这些药物，那些药物也不是每个国家都可以使用的。还有就是每一个人，他的各种特质，不见得就适合用这个药。这些其实都是可以用机器学习来做出来的。

前一阵我在美国碰到了一些科学家，他们正在用机器学习的方法来发明新药。我们的科学研究方面当然要有聪明的头脑和很好的实验，但是其中有一个很关键的部分，就要是一定的程度去排列组合：试很多东西，对小白鼠先试试这个有没有用，再试试看那个有没有用，然后再在猿猴身上实验，再进行人体实验。在以前，这整个过程都是由人脑完成，但是这个交给机器来做也许会更精准。甚至有一家公司它养了非常多的白老鼠，他里面所有的实验都是通过机器学习精准进行：每天白老鼠活了几只，死了几只，什么药可以进到下一步……这些都是靠机器学习加上非常精密的系统来做。

我们发明的很多新的材料，都不是靠纯粹的科学方法推出来的，也是去试一试，把这个碰到那个，就产生了有很特殊效应的材料。这些知识都可以输入我们的信息学习系统，通过它我们可以帮助发明新的事物。

在教育方面也有应用。在学习的过程中，如果基础没有打好，下一个层次根本学不下去。智能化的教育系统会识别你的学习水平，然后根据你的水平确定学习内容。比如，你的乘法没有学好，机器就不可能让你去学除法。

当然学习外语也是很好的例子，我们今天的语音识别做的这么好，为什么我们学外语还是一定要找外教，为什么语音识别不能再上一层楼呢？所以，当你的技术一提高了，语音识别应用就不会只是我的讲话进去然后文字出来，它还有可能用在教育领域。

在这么多机会之下，这个人工智能会重塑亿万级别的领域。当然这个不是明天就会发生，因为我觉得人工智能在很多方面还是相当大的欠缺……

深度学习的挑战

但是深度学习以及机器学习还面临很多挑战。这里有几个问题。

（图：深度学习面临的挑战）

第一个问题，就是我刚刚提到的：目前仍然没有一个统一的平台。在深度学习方面，现在的人懂就是懂，不懂就是不懂。这就是为什么Google最近花了重金不断在挖业界顶尖的人才，给年轻人开出的年薪甚至超过200万美元。这些人也就是二十来岁，博士刚毕业不久，怎么会这么值钱呢？

其实就是因为两个理由，第一，这些人进入了公司之后，会被投入到健康、医疗、预防等等各个领域的研究。他们虽然每年拿走公司的两百万美金年薪，但是也许两年后他们就能在相关领域创造出两亿美金的价值，所以对Google公司而言，这些人才实际上不贵，是非常划算的。

第二个理由就是Google多雇一个，Facebook就得少雇一个。这不是开玩笑。因为在美国有三个大公司在疯狂挖人工智能的人才——Google、Facebook和Microsoft，他们之间竞争激烈，对人才的吸引力也不相上下。

第二就是深度学习的网络太大，需要海量的数据。

第三，因为数据太多，所以计算特别的慢，所以需要非常大的计算量。

第四点有点奇怪但也合理：机器无法用人的语言告知做事的动机和理由。即便机器训练做了很棒的深度学习，人脸识别、语音识别做的非常棒，但它不能和人一样，它讲不出来这是怎么做到的。虽然有人也在做这方面的研究，但是在今天，如果一个领域是不断需要告诉别人该怎么做，需要向别人去解释为什么的，那这个领域对于深度学习来讲还是比较困难的。比如Alpha Go打败李世石，你要问Alpha Go是为什么走这步棋，它是答不上来的。

即便有如此多的局限，我们还是认为人工智能在很多领域可以迅速应用，并且可以帮助企业打造竞争壁垒。

人工智能如何帮企业打造竞争壁垒？可以从如下四个方面思考：

第一，如果你有垄断性的大数据，你就会有很大的优势。关于数据需要注意的几点是，首先垄断性大数据不是公开的数据，不是剽来的数据，也不是买来的数据，因为这样的事情你能做竞争对手也能做。其次，无标签的数据也不会给你带来优势。再次，如果是人工标签的数据也不行，因为人工标签太慢了。最好的数据是闭环的数据，所谓闭环的数据就是在你应用的时候可以捕捉到数据并且知道最终你根据数据做出的抉择对或不对。我们投资的face++，它有和美图、阿里的合作，就一定程度形成了特别大的数据的优势。

第二，拥有庞大的机群。机群是很重要的，包括需要什么处理系统的支持，怎么去部署，用什么样的计算架构等等。

第三，你要有一批特别懂的人。没有平台的时候，你就只能把一批人丢进去，让他们去解决特别大的问题。

第四，当你没有平台的时候怎么办？我们就可以找一批特别聪明的人，让他们不断的调节算法——当然这构成一个短期的竞争优势，从长期看，一旦大的人工智能平台出来，这种优势就不存在了。所以现在来做人工智能，抓到这个先机是特别特别重要的。

科普深度学习
姓名：张艺伦学号：17011210282 转载自：https://mp.weixin.qq.com/s?__b...
docker配置及使用
docker 常识科普 docker有镜像(images)，容器(container)有位大神配置好了深度学习环境...
下月新书抢鲜看 | 11月新书重磅预告
科技科普类深度学习与飞桨 PaddlePaddle实战 ISBN：9787115519641 作者:于祥内容...
深度学习系列——科普篇
本篇包括很多基本概念以及链接，但是比较零散，属于看到哪儿收集到哪儿的学习笔记。搞deep learning的人员...
深度学习（Deep Learning）（科普版）
在机器学习（ML）研究范围之内，不论从研究理论还是实践层面来说，机器的深度学习都成为如今的热点，一系列的新名词雨后...
学习机器学习需要理解的五个基本概念
量化科普丨这篇文章主要讲述了机器学习的相关内容，阐述了机器学习的主要意义和形成过程。区别了机器学习与 AI、深度学...
学习效率怎样提高
第一、需要深度思考看视频直播能不能学习，能，科普性学习。现在视频模式如此火爆，专业书籍的价值可以取代么？不可以...
强行科普深度学习第二弹
课堂中的“深度学习”
“深度思维”是“深度学习”之魂！ “深度思维”是“深度学习”之根！ “深度思维”是“深度学习”之本！ ...
机器学习&深度学习知识体系——写过的博文（博客目录索引）
机器学习&深度学习入门机器学习简介深度学习简介深度学习入门极简教程（一）深度学习入门极简教程（二）深度学...