王维嘉,中国科技大学学士和硕士,美国斯坦福大学博士。曾在斯坦福大学师从人工智能鼻祖之一、美国国家工程院院士伯纳德·威德罗教授。在硅谷学习、工作、创业、投资超过30年,拥有十几项美国基础专利,开发了世界上第一台手持互联网终端,是全球移动互联网的布道者和践行者。目前在硅谷专注投资人工智能,每年调研全球上千家高科技创业公司,访问世界顶级大学和研究所。
关于本书
本书介绍了机器学习五大流派从数据中挖掘暗知识的方法以及各自适用的领域,尤其是神经网络的基本工作原理和目前在商业上应用最广泛的几种形态。同时着重讨论了暗知识对商业和社会的直接影响,比如哪些行业将面临机器认知的颠覆,在不同行业里有哪些投资机会和陷阱。本书最后介绍了目前还没有商业化的,但可能更深刻影响我们的一些神奇的人工智能应用,以及人工智能会在多大程度上取代人的工作,造成哪些社会问题,如何让下一代做好准备等。
核心内容
一、什么是暗知识?暗知识与明知识、默知识之间有哪些区别?
二、机器学习的哪些优势使它能够发现暗知识,这些优势为什么是人类的认识能力所没有的。
三、暗知识对产业变革和人自身发展的影响:哪些行业会因为暗知识的发现而产生新的投资机会?
前言
自2016年 AlphaGo 大战李世石以来,人工智能一直是一个炙手可热的话题。机器向我们展示了惊人的学习能力,AlphaGo先学习人类的棋谱,然后超越人类,而且让人头疼的是,就算是谷歌的工程师也并不知道机器是怎么做到的。
这一种知识是机器发现的,人类无法理解的知识。这本书的作者把它叫作“暗知识”,也正是这本书的主标题。
这本书不只是为你清楚定义了什么是暗知识,还回答了几个根本问题:人工智能给人类社会带来的真正变化究竟是什么?如何最简单、最通俗地概括这个变化?我们如何应对这个变化?
这几个问题可都不是小问题,作者也来头不小。他是美国硅谷的知名投资人王维嘉博士。王维嘉博士早年在美国斯坦福大学攻读博士学位期间就做过人工智能方面的研究,后来进入产业界,在硅谷和中国都创办过高科技公司。目前在硅谷专注于人工智能方面的投资。可以说,他在人工智能相关的学术界和产业界都有着非常丰富的阅历经验,对整个产业和科研的进展方向有着独到的洞见和理解。这就为本书的讨论提供了绝佳的质量保证,你绝对能够从中读到在别的泛泛讨论中无法获得的精辟见解,进而有可能转化为你自己对这项产业变革大趋势的理解。
第一,讲清楚什么是暗知识?暗知识与明知识、默知识之间有哪些区别?
第二,讲清楚机器学习的哪些优势使它能够发现暗知识,而这些优势为什么是人类的认知能力所没有的。
第三,讲清楚暗知识对产业变革和人自身发展的影响:哪些行业会因为暗知识的发现而产生新的投资机会?
第一部分
咱们先来看第一个方面,究竟什么是暗知识?
说到知识,你首先想到的肯定是各种用语言或数学符号表达的定理、公式,这些也就是明知识,它们被记录在书籍、报刊杂志、音频等各种媒介上。只要人们通畅无阻地掌握了语言或符号,明知识可以在人和人之间传播,人类学习明知识就很方便,这是这类知识的巨大优势。然而,明知识的这个优势也带来一个问题,就是明知识必然受制于语言表达能力的有限性。有些信息,我们大脑能理解,但是,你就是没办法用语言表达出来。要理解这个问题,就得先来说一说信息与知识是什么关系。
简单地说,单有信息还不能算知识。信息是事物的外在特征,任何一个物体所包含的信息量都可能特别大。比如一块石头的形状、重量、颜色,甚至分子结构等等,都是信息。但这些,还不能算知识,知识则意味着有某些信息被描述了出来,并且在时间与空间中建立了某种关系。
举个例子,比如我们说牛顿运动定律是知识,就因为它清楚地表达了力、质量和加速度之间的关系。牛顿从观察苹果落地的信息出发,找出了能描述从苹果落地到行星运动的普遍关系,即两者都是因为有万有引力。这是一种稳定的关系模式。对模式的识别就是人类的认知过程,识别出来的模式才是我们通常所说的知识,而知识的应用也就是拿已经识别出来的模式去预测接下来会发生什么事情。人类的明知识特别是科学就是这样发展的。
理解了这个关系,接下来,我们回到关于明知识的局限性问题。人类大脑接收信息的能力与语言表达的能力之间,差距很大,大到什么程度?
我给你来做一下比较。人类大脑接受的环境信息量是巨大的,一棵树、一块石头都可能包含几十兆甚至几十个 G 的信息量。在大脑接收到信息之前,我们需要用感官接收信息,我们的眼睛平均以10兆每秒的速度向大脑传送信息。但跟大脑相比,人类的语言表达能力却是极为有限的。比如读书的平均速度只有每秒5个字,40比特,一兆等于一百万比特,这个“进”和“出”的差距是6个数量级。也就是说,尽管人类的大脑接受了极为丰富的信息,但我们的语言表达能力很有限,很多时候只能用简化了的概念和逻辑表达,这也就意味着,最后所得到的明知识也将是非常非常有限的。
所以,最初计算机科学家们的设想,有没有一个办法,能够让机器像人类那样学习明知识,又不会受制于人类有限的语言能力呢?沿着这个思路,还形成了一个学派,就是机器学习的符号学派。就是让机器像人类那样学习明知识,特别是能够按照一定的符号演算和操作,就像做几何定理的证明那样,从逻辑关系中寻找出新知识。它假定所有人类的思维都是符号的推演和计算,所以只要给机器相同的算法,机器就能像人类那样学习明知识,用符号运算来代替人类有限的语言能力。这种思路在人工智能的发展史上曾盛极一时,但终究失去了主流的地位。道理很简单,在明知识之外,还存在着大量不能被语言描述的信息,它们也是人类知识与智能的一部分,而不能由符号计算来把握。
那些不能被语言描述,但建立了一定关系的信息,就是人类的默知识。默知识无法以公共的方式学习或传播,所以只能靠手把手地教来学会。例如你学会骑自行车,学会游泳,学会打乒乓球,都需要教练不厌其烦地示范,加上你自己不断地练习和亲身体验才行。所以这种知识也是非常个人化的。虽然你和你的邻居都会开车,但你们的驾驶习惯、对行车中可能发生的紧急情况的应变感受,可能完全不同,因为你们对“如何开车”的默知识都带有强烈的个人色彩。
机器学习也可以处理默知识,这就是强调类比方法的类推学派。这一派的思路非常简单:第一,如果两个东西的某些属性相同,那么它们就是类似的;第二,如果有已知的某些属性相同,那么它们的未知属性也会相同。类推往往是人类默知识的特点。例如,老警察一眼就能看出谁是小偷,这就是从以往的小偷身上具有的属性类推到眼前的嫌疑人身上,但不一定说得清楚是根据什么判断出来的。机器学习的类推也依赖于对不同事物的相似与否的判断。人类对相似度可能只有模模糊糊的感受,比如那个老警察能感到以前的小偷与眼前这个嫌疑人之间的相似度,却无法精确地表达出来。机器在这方面就很有优势,它可以很容易地抓住相似度的量化特征,从而作出比人脑还准确的判断。
如果说,默知识意味着有某些信息关系模式是可感受,但不可描述的,那么我们还可以进一步设想,是不是还有一种知识,还可以是人类既不可描述也不可感受的东西呢?如果有,那就意味着说是超出人类理解能力的东西。这就是只能由机器认知来发现的暗知识。
这里必须强调的是,暗知识并不等于某些还没被人们认识到的知识。比如,在量子力学被提出以前,人们无法理解微观粒子的运动规律,而有了量子力学的知识就变得可以理解了。这就是说量子力学并不是暗知识。
真正的暗知识是什么呢?它是人类根本无法理解的知识。举个例子,我们可以假设有一种生物生活在微观粒子的层次,对于我们来说各种奇异的量子现象在这种生物看来简直就是稀松平常。那么如果这种生物有对微观世界的知识,这种知识就是人类所不能理解的。即便人们发现有这种知识以后也依然不能理解。因为这种微观生物有着完全不同的感受能力和表达能力,它对世界的知识就是人类既无法感受更无法描述的暗知识。再举一个更直观的例子,在警察办案的过程中,警犬总是能起到很大的作用。尤其是在缉毒案例里,警犬能闻出毒品,但对人类来说既无法感受,也无法表达。我们可以说警犬掌握了一种暗知识。
现在我们可以说,机器认知所发现的就是这种意义上的暗知识。像 AlphaGo 所发现的如何下围棋的知识,既没有人说得清楚为什么应该这样下,也没有一个围棋高手能建立这种棋路的感觉,但 AlphaGo 所抓住的的确是真实存在的信息关系模式,否则它就不会赢了李世石。
上面讲的就是第一个方面。总结一下,人类知识包含可以描述和传播的明知识与不可描述的个人化的默知识。暗知识指的是那些区别于明知识和默知识的,既不可感受也无法描述的知识。机器发掘出来的暗知识,尽管无法被人类理解,却可以在机器间传播。人类知识和机器知识共同描画了未来世界的知识图景。
第二部分
那么,第二个问题是,机器为什么能发现人类不理解的暗知识?
我们拿今天机器学习最拿手的模式识别来做个例子,具体看看机器认知是如何实现这一点的。图像的模式识别任务很明确。给一个小孩子看狗的图片,小孩子都知道这是狗。那么我们如何让机器看到狗的图片时也回应说这是狗?这就要学习大脑工作的方式。
人类的大脑是靠神经网络来工作的,神经元之间的联结可以在学习过程中被不断强化,形成一个稳定的联结模式。比如因为狗见得多了,小孩子一看到狗的图片,神经元固定的反应模式就出来了,他马上就知道这是狗。机器学习所依赖的人工神经网络也模仿这一点,用神经元一层一层地组成一个神经网络,不断地用狗的图片去训练机器,调整网络每一层神经元的参数,直到最终反应出正确答案说“这是狗”为止。久而久之,机器也形成了固定的反应模式,给出狗的图片就也能马上识别出来了。
问题是,神经网络涉及的参数太多。像微软做了个能够超越人类识别图像能力的网络就有152层,总共151亿个人工神经元的联结,这么大的量就不可能靠人力去调参数了,而需要设计一种办法让机器自动地调整。想想公安局里给嫌疑人画像都是怎么做的。画师会先问目击者嫌疑人的性别、年龄、身高等,然后问他五官的样子,比如是单眼皮还是双眼皮,是高鼻梁还是塌鼻梁等等。这就是提取主要特征,画师先画出样子,目击者说眼角再耷拉一点,画师再不断改,直到画出目击者记忆中的样子。
机器认知也学的是公安局这一招,就是提取主要特征。如何训练神经网络从人海里一眼认出嫌疑人?先给机器看嫌疑人的各种照片,也就是要先划定几个抓取五官主要特征的模板。比如鼻子,一开始就是随机画的图案,然后在要处理的图像上从左到右从上到下不断扫描,看能否发现重合的部分。如果发现不了就变一变这个图案,然后再扫,直到变得最像嫌疑人的鼻子,就是最重合的时候。这还只是鼻子,再把其他五官特征加上去,甚至机器还可以自己寻找出人类都感觉不到的特征,比如两眼的间距、口与鼻的距离等。把这些主要特征考虑得越充分,最后识别出来的结果就越准确。
机器这种学习公安局画像的方法,有一个专门的名词,叫卷积神经网络。所谓卷积,就是那些抓住主要特征的小模板,把图片上下左右横扫一遍,以求发现重合。这个名称很有些唬人,但它基本的工作方式通俗来说就是这样。机器学习当然还有很多其他的途径,但卷积神经网络目前是在图像识别里最火的方法,因为它非常有效,能够比人脑对图像的识别更快更精确。我们就拿它来当一个例子。为什么机器用这种方法可以发现暗知识?表面上看,机器学习依赖的神经网络就是模仿人脑的,为什么反而比人脑还厉害呢?
一是与机器的感官相比,人类的感官实在太差。人类进化出的感官主要服务于觅食和求偶的任务,眼睛看不见红外线,耳朵听不到超声波,至于触觉、嗅觉、味觉的分辨率更是粗糙。而机器的图像识别依赖的是各种物理、化学和生物类的传感器,这就比人的感官精密得多。不仅可以获取人感受不到的信息,而且对信息的分辨率也远超人类。
第二,人脑的神经元是靠化学分子传导的,每秒钟大约只能传导200次信号,而且还非常不可靠,平均每次传输的成功率只有30%。而那个卷积神经网络是靠晶体管和电信号传导的,不仅比人脑快几百万倍,可靠性几乎是100%。
最后一个原因,大脑内部每一个神经元之间究竟是怎样连接的,连接的强度如何,至今仍是一个黑箱,我们几乎完全不了解。但卷积神经网络中的每一个神经元之间的连接,我们却有着非常精确的控制,各种相关参数都可以存储和提取。这就保证了机器发掘出的暗知识可以在机器之间传播和复制。
尽管机器学习有上述种种神力,但人类也不必妄自菲薄,更不必现在就开始忧心机器会超过人类,因为毕竟它还有很多不如人脑的地方。它最大局限性就是,它只能提取相关性而不会理解因果关系。 靠“死记硬背”,像个刻苦但不聪明的学生,不理解公式,靠做海量的习题企图把世界上所有问题类型都过一遍。比如那个识别嫌犯的卷积神经网络,在得到准确的图像识别结果以前,必须经历大量的特定训练,而不会自己举一反三。在训练最开始的时候,神经网络的表现极其笨拙,给它看一张白狗的图片,它甚至可能把白色看作狗的相关特征,于是再看白兔子的照片也依然认为是狗。人类则不同,两三岁小孩子只要看过几只狗以后几乎就能认出所有的狗了,而不需要大量训练。这恰恰是人工智能还那么像人的“智能”的地方。
神经网络的另一大局限性是无法解释结果为什么是这样。这其实是暗知识的特征,它超出了人类的理解能力,当然就无法解释。在有些情况下,人们只关心有用和有效,有没有解释可能并无所谓。但在许多涉及安全和公共政策的问题上,不可解释就意味着无法充分信任它,也无法和大众沟通。比如医疗领域也可以用卷积神经网络来识别 X 光片,但它的结果绝对不能不加解释就直接用于诊断,而只能作为一种辅助手段,需要专业医生的检查审核。所以医生的地位仍然无可取代。
我们又讲完了第二个观点。概括地说,机器之所以能发现人类都不能理解的暗知识,是因为它模仿了人脑获取知识的神经网络,同时又以更精确的感官、更快更可靠的神经信号传导、更容易储存和复制的优势超越了人脑,使得机器能够抓住某些信息的关系模式。而对于人脑来说,这些模式是既无法描述也不可感受到的。但是我们也要看到,现阶段的机器学习还有两大局限性,这使得它还不能在所有情况下都可以替代人脑。那么着眼于未来的发展,暗知识的不断涌现会改变哪些行业?人工智能会在哪些领域最先取代人类?这正是我接下来要说的。
第三部分
首先需要想明白的是,这一波人工智能的产业变革浪潮,与上一波互联网发展的浪潮相比,有着非常明显的区别。
互联网从1994年起步,最开始是和传统产业没什么关系的边缘行业,直到今天互联网对传统制造业、农业、交通运输等行业的影响,也还局限在媒体和营销方面。人工智能则不同,它从一开始就在传统产业的中心爆炸,目的就是要颠覆传统行业。在自动驾驶、医疗健康、智能金融、城市管理、智能翻译等诸多新兴领域,机器认知和暗知识已经并将继续展现出它独有的魔力。任何传统产业的从业者都无法置身事外,必须从现在开始就要努力破解应对之道。而对投资者来说,则更是意味着众多潜在机会的涌现。
我们拿自动驾驶来作为一个例子,具体看看暗知识的发现会给这个汽车行业带来哪些潜在的机会。
目前,自动驾驶的自动化分级有一个5级的标准,最高的等级是完全的自动化,车辆可以在所有天气条件和任何场景下实现自动驾驶,无须人类驾驶员介入。这到目前为止只能算是远景目标,还没有成为可商用的现实。一个重要原因就是我们刚才说的机器只会找相关性,但不懂因果,所以对驾驶中出现的形形色色的场景无法理解。目前大部分在开发的自动驾驶车辆,大都在部分自动化或有条件的自动化水平,就是说还是由人负责全程驾驶,但在限定条件下可以由机器驾驶几分钟,或是更明确地分为人负责的时间段与机器负责的时间段。当机器负责驾驶时,人可以手离开方向盘,眼睛不看路,脚离开刹车。能做到这一步已经是相当不错的成就了。
正是由于有了前面说的卷积神经网络等神奇方法发掘暗知识, 进一步提高驾驶的自动化程度才可能成为现实。目前还有一些产业变革上的痛点需要克服。比如说,要实现完全的自动驾驶,就需要有所驾驶区域的高精度地图。为了保证安全性,精度就需要很高,这就可能需要足够的无线传输带宽把不同地区的地图数据传给汽车。更麻烦的是路上的拥堵情况与道路封闭的信息可能是实时更新的,这就只能靠路上行驶的其他车辆收集数据上传云端,再实时下载到附近的车里。因此这就可能造成一个恶性循环:一开始没有几辆上路的自动驾驶车辆,所以也就没有什么实时数据的收集,也就没人敢用自动驾驶上路,反过来也就更无法实时收集路况数据。
克服这样的痛点,一方面是要依赖机器学习水平的进一步提升,但也还要看到,正是在解决之道的求索过程中,新的产业需求就有可能被创造出来。首先,自动驾驶的发展往往又与电动汽车技术密不可分,这就要求能够进一步缩短充电时间,降低电池成本。所以电池技术的突破对自动驾驶来说也会有巨大的商业价值。
其次,充电桩和换电池站将会成为一个巨大的市场。如果有大量的汽车在高峰时间同时高速充电,这就可能对电网造成难以承受的负荷,所以市场也会产生改造旧有电网和储存电能设备的新需求。
最后,传统汽车厂商需要营造成本巨大的线下售后服务体系,你买一辆车就得靠4S 店来解决各种问题。到了自动驾驶实现之后,汽车本质上就成了一台带着四个轱辘的电脑,所需的零部件比现在的油车大大减少,电动车就可以像个人电脑或 iPhone 手机一样变得标准化,这将大大冲击传统汽车行业的营销模式,你就可以像手机 App 上购物一样来买车了。
除了对产业的变革以外,机器学习还可能或已经变革着社会和人自身。那些重复性高、可预测和可编程的工作最容易首先被人工智能取代,比如收银员、快递员、公交车和出租车司机等。而很难标准化、程序化,特别是还需要依赖对人类情感理解的工作,就很难被替代,典型的代表是考古学家、心理咨询师、外科手术医生,甚至保姆等。当然,人工智能时代的到来还将产生许多前所未有的新工种。数据标注员就是这样一类新工作。因为要想训练机器识别出暗知识,就得需要大量已标注的数据,包括图像、视频等,原则上需要把被识别种类的所有情况都标注出来,机器才可能完全掌握,这只能依靠大量人工来完成。类似这样的新工作岗位在暗知识被不断发现的时代中将层出不穷。社会还将因此发生更多难以预知的结构性变革,我们所能做的只能是不断强化自身,以应对任何可能的变局。
总结
首先,暗知识之所以区别于明知识和默知识,就在于它既不可感受也无法描述。机器发掘出来的暗知识,尽管无法被人类理解,却可以在机器间传播。
其次,机器以更精确的感官、更快更可靠的神经信号传导、更容易储存和复制的优势超越了人脑,所以它能发现人类都不能理解的暗知识。
最后,机器认知和暗知识的发现将从根本上颠覆传统产业的发展模式,同时在自动驾驶等新兴领域创造出新的商业机会。暗知识的时代同样是机遇与挑战并存。
人类自有文字并进入文明社会以来已有数千年的历史。这数千年可以说都是人类获取知识的历史。今天,机器学习给出了人类知识的一个全新方向,竟然可以让人类利用自己都不理解的暗知识去解决问题,而且这些暗知识从总量上说将远远超过人类已经积累和尚未发现的知识。表面上看,这似乎意味着人类是否理解知识已经不再重要,因为反正有机器来替我们搞定一切。但你如果往深里想,这恰恰是对人类掌握知识的能力提出了更为迫切、更为严峻的要求。如果所有人都依赖机器,那么那些因为占有机器的知识而聚集资源的机构或个人,将决定社会权力的分配,公平、正义这些固有的价值体系将有可能要被重新定义。
无论何时,人自身的发展和完善才是解决一切问题的终极目的,在这个意义上,机器并不能改变什么历史,最终具有决定意义的仍然只能是人本身。
网友评论