AI趣
作者:萝卜兔
在自然语言处理中有一个很经典的歧义句子“The girl saw the boy with a telescope”,我们一般会翻译成为“那个女孩用望远镜看见了那个男孩”,而实际上翻译成为“那个女孩看见了那个拿着望远镜的男孩”在语法上也是完全成立的,那为什么我们的大脑可以迅速的消除歧义呢?
在MacKay的《Information Theory:Inference and Learning Algorithms》中讲过一个例子:
在上图中,一共有几个箱子呢?在那棵树遮挡后面到底是一个箱子还是两个呢?通常情况下我们会觉得或者“凭直觉”应该是一个箱子。那为什么我们不会认为是两个呢?如下图:
是不是觉得,如果像图中这样两个箱子,真是太巧合了。树恰巧挡了两个颜色、高度一模一样的箱子。用概率论来解释就是这棵树挡住的是两个颜色高度一模一样的箱子的概率太小了,不太可能。
同样,对于上面的句子“The girl saw the boy with a telescope”翻译成“那个女孩看见了那个拿着望远镜的男孩”太巧合了,男孩怎么会偏偏拿了一个望远镜,这是一个小概率事件。但是,翻译成“用望远镜去看那个小男孩”就靠谱多了,这跟我们生活中经验数据是相吻合,这就不是小概率了。
很明显,上面的两个案例都跟概率有关,其背后的原理也就是我们今天要谈到的贝叶斯定理。
根据美国《技术评论》的调查报告,“全球九大开拓性新兴科技领域”中的第4项为“贝叶斯统计技术”,调查报告指出:贝叶斯统计学作为概率论的一个古老分支正在焕发青春。在如今的AI大潮中,贝叶斯仍然扮演着很重要的角色,在自然语言处理、微型芯片以及药物发现领域都发挥了巨大的作用。
贝叶斯,全名托马斯·贝叶斯(Thomas Bayes),出生于英国伦敦,死于1761年,英国著名新教徒,数学家,主要研究概率论。1763年12月23日,由理查德·普莱斯(Richard Price)在伦敦皇家学会会议上宣读了贝叶斯的遗世之作——《机遇理论中一个问题的解》(An essay towards solving a problem in the doctrine of chances)提出了一种归纳推理的理论,从此贝叶斯定理诞生于世。
我们高中就学习过贝叶斯定理,是用来解决“逆概”问题。通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A发生的条件下的概率是不一样的。但是这两者之间有确定的关系,贝叶斯定理就是这种关系的陈述。数学表达如下:
贝叶斯定理看似简单,其背后却有着深刻的自然定理。现实世界本身是不确定的,人类的观察能力是有局限性的,我们日常所能观察到的只是事物表面的结果,并不能完全掌握事物的实际情况。这个时候,我们需要提供一个猜测(hypothesis,更严格的说是“假设”)所谓猜测,当然是不确定的,但是也不是完全没有根据的瞎猜,我们需要做两件事情:
算出各种不同猜测可能性的大小;
算出最靠谱的猜测是什么;
而这也符合我们在日常生活中的一些判断,比如通常所说的“直觉”,虽然我们并没有注意自己的是如何得到“直觉”的。
经典三门游戏:反直觉背后的秘密
我们通过经典的三门游戏来详细讲解一下贝叶斯定理的计算过程。三门问题(Monty Hall problem)也称为蒙提霍尔问题,出自美国的电视游戏节目Let’s Make a Deal。
节目提供了三扇门给参加游戏的选手,这三扇门中有一个门后面有汽车大奖,其余两个则是空门。选手可以选择其中一扇门,但是选择后并不打开,然后主持人会将剩余两扇门中没有汽车的那一扇门打开,然后主持人会问参赛选手要不要换另一扇仍然关上的门。
大部分情况下,凭直觉,我们都会选择不换,因为大概的算一下,中奖的概率是50%。那究竟该不该换呢?我们用贝叶斯定理来计算一下:
1、在最开始的时候,我们对三扇门之后是什么一无所知,所以三扇门后面有大奖的概率都是一样的,假设An,n=1,2,3An,n=1,2,3 为第n个门之后有汽车,那么我们P(An)=1/3。
2、设B为主持人打开了门2,那么P(B)是主持人打开门2的概率,可以得到:
P(B|A1)=1/2(门1后面有汽车,主持人打开门2、门3的概率一样);
P(B|A2)=0(门2后面有汽车,主持人必然不会打开门2);
P(B|A3)=1(门3后面有汽车,主持人必然会打开门2);
那么我们计算P(A1|B),这个式子表示我们在得到主持人打开了门2,后面没有汽车这个事实之后,对于P(A1)这个概率的调整:
而P(B)可以通过全概率公式计算:
通过计算P(A1|B)=1/3,也就是说,当主持人打开门2后,门1后面有汽车的概率是没有变化的。
但是,P(A2|B)与P(A3|B)也就是门2和门3后面有汽车的概率却发生了变化,P(A2|B)=0(主持人一旦打开了门2,门2后面必然没有汽车)P(A3|B)=2/3,门3后面有汽车的概率提高了。
所以,换要比不换获得大奖的概率高。
让机器学会区分中文的歧义
第一次感受到贝叶斯强大是看吴军的《数学之美》中提到的“统计语言模型”,其主要思想就是利用了贝叶斯概率。通常,一句话(这里用S来表示)是由一连串特定顺序排列的词组成的(这里用w1,w2,w3...wn)表示排列的词。机器对语言的识别从某种角度来说,就是计算S这个句子在文本中出现的可能性,概率上用P(S)表示。
P(w1)是第一个词出现的概率,P(w2|w1)是在第一个词出现的情况下,第二个词出现的概率,以此类推。在实际处理中,将上述公式做了简化,任意一个词wi出现的概率只与他前面的词wi-1的概率有关(马尔可夫假设)。
就是这样简单的方法,效果却非常的好,实际上这也符合我们的常识。
比如:南京市长江大桥
“南京/市长/江大桥”的这种分词方法在各种文献中出现的概率几乎为零,所以通过计算统计概率,就能够正确的实现分词“南京市/长江大桥”
分类算法之贝叶斯网络
贝叶斯网络(Bayesian network),又称信念网络(belief network)或是有向无环图模型(directed acyclic graphical model),是一种概率图型模型,借由有向无环图(directed acyclic graphs, or DAGs)中得知一组随机变量{X1,X2,X3...Xn}及其n组条件概率分配(conditional probability distributions, or CPDs)的性质。(来源:维基百科)
还是看一个具体的案例:
使用朴素贝叶斯分类实现社区中不真实账号的检测,做如下三条假设:
真实账号比非真实账号平均具有更大的日志密度,更大的好友密度以及更多的使用真实头像。
日志密度与好友密度、日志密度与是否使用真实头像在账号真实性给定的条件下是独立的。
使用真实头像的用户比使用非真实头像的用户平均有更大的好友密度。
抽象特征属性之间的关联:
上图是一个有向无环图,其中每个节点代表一个随机变量,而弧则表示两个随机变量之间的联系,表示指向结点影响被指向结点。图给出了定性关系,定量需要一些数据,这些数据就是每个节点对其直接前驱节点的条件概率,而没有前驱节点的节点则使用先验概率表示。
上表表示“账号是否真实“的概率;下表表示“在账号是否真实”的条件下,“头像是否真实的概率”
具体的计算过程这里就不赘述了,有兴趣可以去看萝卜兔整理在下面的一些资料(资料统一整理到最后了,该案例的相关计算在引用【7】可看)。
大脑的认知是贝叶斯式的?
通过前面介绍的几个例子,大家似乎也感受到了一点端倪,似乎贝叶斯定理能够合理的解释我们大脑的认知。关于“大脑是不是贝叶斯式的”在学术界也引起了广泛的讨论。
贝叶斯大脑支持方认为:
1、贝叶斯算法在复制“如何从较少事实中得出大量信息”方面表现地尤其出色,即从少量模糊数据中收集信息,这和我们大脑学习举一反三是很像的。
2、贝叶斯并不从试图刻画事件本身,而是从“观察者”角度出发,对不确定的知识作出推断,而我们的大脑对未知的预测也正是基于我们不完备知识的推断,大脑的运作就像一个理想的贝叶斯观察者。
贝叶斯大脑反对方认为:
大脑作为一个整体,只有一部分的认知原理可以通过贝叶斯模型进行模拟验证。但是这并不能说明大脑就是贝叶斯式的。
1、就学习机制而言,贝叶斯能够用数据对先验知识进行修正,可以持续学习并积累知识。但这仅仅是一个知识积累的过程,它并不能像大脑一样进行整合,重新规划,得到创新性的结果。
2、就预测机制而言,大脑和贝叶斯定律都具有预测功能,但是大脑的预测机制要远远强于贝叶斯预测。贝叶斯预测是根据已知的数据推测未知情况的过程,但是面对一个从来没有先例可依的问题,贝叶斯模型该如何解决呢?况且,人类大脑的预测行为会带有强烈的感性心理,比如我们上面说的三门游戏中,即便知道换一扇的可以得到大奖的几率更高,但是仍然会有很多人会选择不换(其中侥幸心理,禀赋效应等等都是可以左右我们的感性因素)。
萝卜兔也认为不能说大脑的认知是贝叶斯式的,但是这并不妨碍我们可以去做这样的假设,然后通过这样的假设去研究我们的大脑是如何思考,认知的。如果未来有新的研究推翻了该假设,那我们对大脑的研究又迈上了一个新的台阶。
贝叶斯模型及其背后隐含的自然规律,还有很多值得我们去探索和研究的,关于预测、关于直觉、关于于世界的不确定性.....关于虚无、关于...
参考资料
【1】《平凡而又神奇的贝叶斯方法》
http://mindhacks.cn/2008/09/21/the-magical-bayesian-method/
【2】《贝叶斯身世之谜》
http://gaolei786.github.io/pdf/1.pdf
【3】《数学之美》吴军
【4】《通过三门问题解释贝叶斯理论》
https://blog.csdn.net/Wind_Desert/article/details/52951787
【5】《The Cybernetic Bayesian Brain》
OpenMind 第35章
【6】《Information Theory : Inferenceand LearningAlgorithms》MacKay
【7】《分类算法之贝叶斯网络》
https://www.cnblogs.com/leoo2sk/archive/2010/09/18/bayes-network.html
【8】《概率模型之贝叶斯网络》
https://zhuanlan.zhihu.com/p/30139208
网友评论