今天我们一起学习《暗知识》这本书,作者:王维嘉,中国科技大学学士和硕士,美国斯坦福大学博士。曾在斯坦福大学师从人工智能鼻祖之一、美国国家工程院院士伯纳德·威德罗教授。在硅谷学习、工作、创业、投资超过30年,拥有十几项美国基础专利,开发了世界上第一台手持互联网终端,是全球移动互联网的布道者和践行者。目前在硅谷专注投资人工智能,每年调研全球上千家高科技创业公司,访问世界顶级大学和研究所。
本书介绍了机器学习五大流派从数据中挖掘暗知识的方法以及各自适用的领域,尤其是神经网络的基本工作原理和目前在商业上应用最广泛的几种形态。同时着重讨论了暗知识对商业和社会的直接影响,比如哪些行业将面临机器认知的颠覆,在不同行业里有哪些投资机会和陷阱。
本书我们分成三部分来学习:第一,讲清楚什么是暗知识?暗知识与明知识、默知识之间有哪些区别?第二,讲清楚机器学习的哪些优势使它能够发现暗知识,而这些优势为什么是人类的认知能力所没有的。第三,讲清楚暗知识对产业变革和人自身发展的影响:哪些行业会因为暗知识的发现而产生新的投资机会?本篇我们学习第一部分。
究竟什么是暗知识?说到知识,你首先想到的肯定是各种用语言或数学符号表达的定理、公式,这些也就是明知识,它们被记录在书籍、报刊杂志、音频等各种媒介上。只要人们通畅无阻地掌握了语言或符号,明知识可以在人和人之间传播,人类学习明知识就很方便,这是这类知识的巨大优势。然而,明知识的这个优势也带来一个问题,就是明知识必然受制于语言表达能力的有限性。有些信息,我们大脑能理解,但是,你就是没办法用语言表达出来。要理解这个问题,就得先来说一说信息与知识是什么关系。
简单地说,单有信息还不能算知识。信息是事物的外在特征,任何一个物体所包含的信息量都可能特别大。比如一块石头的形状、重量、颜色,甚至分子结构等等,都是信息。但这些,还不能算知识,知识则意味着有某些信息被描述了出来,并且在时间与空间中建立了某种关系。
举个例子,比如我们说牛顿运动定律是知识,就因为它清楚地表达了力、质量和加速度之间的关系。牛顿从观察苹果落地的信息出发,找出了能描述从苹果落地到行星运动的普遍关系,即两者都是因为有万有引力。这是一种稳定的关系模式。对模式的识别就是人类的认知过程,识别出来的模式才是我们通常所说的知识,而知识的应用也就是拿已经识别出来的模式去预测接下来会发生什么事情。人类的明知识特别是科学就是这样发展的。
理解了这个关系,接下来,我们回到关于明知识的局限性问题。人类大脑接收信息的能力与语言表达的能力之间,差距很大,大到什么程度?
我给你来做一下比较。人类大脑接受的环境信息量是巨大的,一棵树、一块石头都可能包含几十兆甚至几十个 G 的信息量。在大脑接收到信息之前,我们需要用感官接收信息,我们的眼睛平均以10兆每秒的速度向大脑传送信息。但跟大脑相比,人类的语言表达能力却是极为有限的。比如读书的平均速度只有每秒5个字,40比特,一兆等于一百万比特,这个“进”和“出”的差距是6个数量级。也就是说,尽管人类的大脑接受了极为丰富的信息,但我们的语言表达能力很有限,很多时候只能用简化了的概念和逻辑表达,这也就意味着,最后所得到的明知识也将是非常非常有限的。
所以,最初计算机科学家们的设想,有没有一个办法,能够让机器像人类那样学习明知识,又不会受制于人类有限的语言能力呢?沿着这个思路,还形成了一个学派,就是机器学习的符号学派。就是让机器像人类那样学习明知识,特别是能够按照一定的符号演算和操作,就像做几何定理的证明那样,从逻辑关系中寻找出新知识。它假定所有人类的思维都是符号的推演和计算,所以只要给机器相同的算法,机器就能像人类那样学习明知识,用符号运算来代替人类有限的语言能力。这种思路在人工智能的发展史上曾盛极一时,但终究失去了主流的地位。道理很简单,在明知识之外,还存在着大量不能被语言描述的信息,它们也是人类知识与智能的一部分,而不能由符号计算来把握。
那些不能被语言描述,但建立了一定关系的信息,就是人类的默知识。默知识无法以公共的方式学习或传播,所以只能靠手把手地教来学会。例如你学会骑自行车,学会游泳,学会打乒乓球,都需要教练不厌其烦地示范,加上你自己不断地练习和亲身体验才行。所以这种知识也是非常个人化的。虽然你和你的邻居都会开车,但你们的驾驶习惯、对行车中可能发生的紧急情况的应变感受,可能完全不同,因为你们对“如何开车”的默知识都带有强烈的个人色彩。
机器学习也可以处理默知识,这就是强调类比方法的类推学派。这一派的思路非常简单:第一,如果两个东西的某些属性相同,那么它们就是类似的;第二,如果有已知的某些属性相同,那么它们的未知属性也会相同。类推往往是人类默知识的特点。例如,老警察一眼就能看出谁是小偷,这就是从以往的小偷身上具有的属性类推到眼前的嫌疑人身上,但不一定说得清楚是根据什么判断出来的。机器学习的类推也依赖于对不同事物的相似与否的判断。人类对相似度可能只有模模糊糊的感受,比如那个老警察能感到以前的小偷与眼前这个嫌疑人之间的相似度,却无法精确地表达出来。机器在这方面就很有优势,它可以很容易地抓住相似度的量化特征,从而作出比人脑还准确的判断。
如果说,默知识意味着有某些信息关系模式是可感受,但不可描述的,那么我们还可以进一步设想,是不是还有一种知识,还可以是人类既不可描述也不可感受的东西呢?如果有,那就意味着说是超出人类理解能力的东西。这就是只能由机器认知来发现的暗知识。
这里必须强调的是,暗知识并不等于某些还没被人们认识到的知识。比如,在量子力学被提出以前,人们无法理解微观粒子的运动规律,而有了量子力学的知识就变得可以理解了。这就是说量子力学并不是暗知识。真正的暗知识是什么呢?它是人类根本无法理解的知识。
举个例子,我们可以假设有一种生物生活在微观粒子的层次,对于我们来说各种奇异的量子现象在这种生物看来简直就是稀松平常。那么如果这种生物有对微观世界的知识,这种知识就是人类所不能理解的。即便人们发现有这种知识以后也依然不能理解。因为这种微观生物有着完全不同的感受能力和表达能力,它对世界的知识就是人类既无法感受更无法描述的暗知识。再举一个更直观的例子,在警察办案的过程中,警犬总是能起到很大的作用。尤其是在缉毒案例里,警犬能闻出毒品,但对人类来说既无法感受,也无法表达。我们可以说警犬掌握了一种暗知识。
现在我们可以说,机器认知所发现的就是这种意义上的暗知识。像 AlphaGo 所发现的如何下围棋的知识,既没有人说得清楚为什么应该这样下,也没有一个围棋高手能建立这种棋路的感觉,但 AlphaGo 所抓住的的确是真实存在的信息关系模式,否则它就不会赢了李世石。
总结:人类知识包含可以描述和传播的明知识与不可描述的个人化的默知识。暗知识指的是那些区别于明知识和默知识的,既不可感受也无法描述的知识。机器发掘出来的暗知识,尽管无法被人类理解,却可以在机器间传播。人类知识和机器知识共同描画了未来世界的知识图景。
网友评论