美文网首页@IT·互联网
什么,贝爷帮你挑西瓜?

什么,贝爷帮你挑西瓜?

作者: 刘雪峰LXF | 来源:发表于2017-08-25 23:56 被阅读0次

    喜欢看简书的同学请到简书链接

    好吧,别打我,我标题党了。这里的贝爷,并不是下图左边这个我们所熟悉那个站在食物链顶端的男人贝爷1号,而是右边这个已经距今离我们将近300年的贝爷0号。这个贝爷0号全名托马斯•贝叶斯(Thomas Bayes),1701年出生于伦敦,1761年去世在英国肯特郡,并埋在伦敦市中心的Bunhill Fields。

    这两个贝爷有什么共同点么?有!

    他们第一个共同点是,他们是老乡,都是英国人。腐国出高人啊。

    他们第二个共同点是,都在各自的圈子内大名鼎鼎。贝爷1号在当今的探险界如执牛耳,风头无两。而贝爷0号,也是当今的人工智能和机器学习界经常出现的名字。

    他们的第三个共同点,就是干货很多,教的东西都很实用。贝爷1号可以帮你在野外生存,而贝爷0号贝叶斯,则可以帮你看清楚很多问题的真相,包括如何挑西瓜。

    今天我们就来看看贝叶斯0号给后人留下的最重要贡献:贝叶斯定理。

    在我们介绍贝叶斯定理之前,我们首先要知道它是干嘛用的。贝叶斯定理,是用来帮我们做信息推断的。简单的话来说,就是用来帮助我们在观察到某个现象后,找到背后的原因的。信息推断的例子很多,包括

    • 你通过拍西瓜的声音来判断西瓜是否熟了。
    • 你看见一个漂亮的女生对了笑了一下,你开始思考她是否喜欢你。
    • 你坐飞机遇见剧烈颠簸,你开始判断飞机是否出事了。
    • ....

    贝叶斯定理和一般人找原因的思路不太一样。一般人观测到某个现象后,脑子里会浮现出某个原因,然后分析一下该原因是否可以解释当前的现象,如果可以就把这个原因当成最后的结论。

    而用贝叶斯定理来进行推断,则是用下面的步骤:

    1. 列出所有的可能原因。
    2. 对每一个原因,找到观察到现象的前提下,该原因的概率有多大。
    3. 找出这个概率最大的原因作为最后的选择。

    举个例子。如果你一天走到一个树下,发现树叶落下来了。一般人的思考方式是什么?落叶?叶落知秋啊,一定是秋天来了。

    而贝叶斯是怎么考虑的?哦,我看到了一片落叶。好的,贝叶斯首先想一下有哪些原因可能导致这片叶子掉下来,例如(1)秋天到了(2)有人在上面修剪树叶(3)这棵树最近枯死了,叶子开始掉下来了等等。 然后,贝叶斯会评估一下,在观察到落叶这个现象以后,每个原因发生的概率是多少。最后,会选出一个概率最高的作为最后结论。

    我们很容易看出,求出 观察到落叶这个现象后每个原因的概率 是关键,即

    P(原因i|当前的观测)

    这个通常称为后验概率(Posterior probability)。后验概率中的`后',就是拿到观测/证据以后,再判断该原因的概率的含义。

    贝叶斯定理,就是告诉我们这个后验概率是如何求的。

    贝叶斯定理大多数情况下在教科书上被写成如下形式:

    为了看的清楚,我们将P(A)从分子搬下来,这样就可以写成如下的形式:


    贝叶斯定理里面的P(A|B)就是后验概率,其中B表示的就是当前的观测,A表示可能导致该观测的一个原因。因此,贝叶斯定理写成人话就是:

    从上面我们可以看出,后验概率 P(原因i|当前的观测)的等式右边,由两部分构成:

    第一部分,P(原因i) 这个概率是我们在拿到现象/观测之前,我们对于原因i本身成立的概率的评估。这个通常称为先验概率(Prior probability)。先验概率中的`先',就是拿到观测之前的意思。先验概率依赖于之前对原因i的认知。

    第二部分是一个分数。分子P(当前的观测|原因i)是在原因i成立时,我们能够观察到该现象出现的概率,通常我们把这个叫做似然概率(Likelihood probability)。这个似然概率描述了原因i能够用来解释当前拿到的现象或观测的程度(解释力度)。 分母 P(当前的观测)这个概率描述了该观测到的现象总体而言的发生的概率。我们可以把这个分母看成是起了一个标准化的作用,使得最后的所有原因对应的后验概率之和为1。

    因此,贝叶斯定理可以表示成

    后验概率= 先验概率*经过标准化后的似然概率


    用贝叶斯定理帮我们做选择

    我们来看一下用贝叶斯定理来选出的原因会有什么特点。首先,从公式

    可以看出,对于同一个观察到的现象,不同的原因i的后验概率的表达式中,等式右边的分母是一样的(P(观测到的现象)),和i无关。因此,我最后选择哪个原因,实际上取决于分子,即

    第一项P(原因 i),是我们在拿到现象之前对于原因i本身成立的概率的评估(先验概率)。第二项,是在原因i成立时能够观察到该现象的概率(似然概率)。换句话说,似然概率是原因i解释当前拿到的观测的程度。所以说,贝叶斯定理选出的,是既能够在一定程度上解释该事实,本身又常见的原因。如果要在一个 '能够很好解释观测但发生的概率极小' 的原因,和一个 '能够勉强解释该事实但与发生的概率很大' 的观点之间选一个的话,贝叶斯估计往往会选择后者。

    还有一种信息推断的方法,我们叫做最大似然估计。最大似然估计,是当观测到某个现象的时候,在所有的原因中找到一个解释该现象最好的原因。从概率的角度上来看,就是选择使得似然概率 P(当前的观测|原因 i)最大的原因i。

    比较贝叶斯估计和最大似然估计,很容易看出,贝叶斯估计和最大似然估计的最大区别(也可以说是唯一的区别)就在于最大似然估计没有考虑先验概率。或者我们可以说,最大似然估计假设所有的原因先验概率相等。

    总结一下,当观测到某个现象后,我们用贝叶斯定理来帮助我们推断出该现象背后的原因的三个步骤是:

    1. 列出所有的可能原因。
    2. 对每一个原因i,找到其本身的先验概率P(原因 i),以及在该原因发生时产生当前的观测的似然概率:P(当前的观测|原因 i),并将这两个概率相乘。
    3. 找出乘积最大的原因作为最后的结果。

    好的,我们用上面的步骤来做一些思维训练。

    例子1: 坐飞机遇见剧烈颠簸

    首先,导致飞机剧烈颠簸的原因有两个:(1) 飞机出事了。(2) 只是遇见气流。

    然后看一下这两个原因的各自的先验概率和似然概率。

    对于第一个原因而言,虽说媒体上经常报道,但飞机出事这个概率其实非常的小。美国麻省理工统计学教授阿诺德·巴尼特(Prof. Arnold Barnett)做过一个精辟的比喻:如果一个人每天搭乘一次飞机的话,他平均需要 123000 年才会赶上一次致命空难。换句话来说,一个人错飞机出事的概率应该在

    飞机一旦出事,毫无疑问会引发剧烈颠簸。因此该原因引发的观测现象的似然概率为

    对于第二个原因,飞机遇见气流,我想大多数的人每次坐飞机大都会遇见。因此我们假定该原因的先验概率为

    而遇见气流,不一定会剧烈颠簸,我想大概10次遇见气流遇见一次剧烈颠簸应该差不多,因此,该原因引发观测到的现象的概率

    我们将两个原因的先验概率和相应的似然概率相乘可知

    显然,我们应该选择第二个原因。这是数量级上的碾压。简单的说,'飞机出事了'虽然能比'飞机只是遇见气流'这个观点更好的解释'飞机剧烈颠簸'这一事实(似然概率更大),但是,'飞机出事了'的先验概率比'遇见气流'的先验概率要小得多,因此贝叶斯估计会毫不犹豫的选择第二个原因。因此,一个用贝叶斯估计思考的人,在飞机剧烈颠簸的时候仍然会非常镇定。

    之所以大部分人在飞机剧烈颠簸的时候仍然会非常紧张,主要有两点原因。首先,他们没有用贝叶斯估计,而是用的最大似然估计,找到解释该现象(剧烈颠簸)最好的原因(飞机失事)。其次,即使是有人下意识用到了贝叶斯估计,也会有可能因为对于`飞机出事'这个原因的先验概率估计错误得出错误结论。为什么统计数据揭示的飞机出事的概率比我们想象中的要大得多?原因在于新闻媒体的有偏采样:每天安全飞行的几十万架次的飞机他们不报道,一旦任何飞行事故都会大张旗鼓的报道,这就导致了我们脑子里觉得飞机经常出事,这就是先验概率的错误认知。

    因此,用贝叶斯观点去思维,并且先验概率要准确,这就是我们得到的两个启发。

    例子 2. 看到鬼

    有一天夜里11点钟,你走在北京外国语大学的校园里,这一段路没有路灯,你突然看到了一个只有上半身的白色的人,慢慢的飘过来。你此时会怎么办?

    首先,我们列出所有可能的原因:(1)有鬼。(2)我眼睛花了。(3)是一个骑自行车的黑人。

    其次,评估一下每个原因的先验概率和似然概率:

    • 作为无神论者,我一辈子也没碰到一个鬼,因此 P(有鬼)=0.1%。假设飘过来是鬼的标准动作,那么 P(上半身的人飘过来|有鬼)=1。
    • 我可能曾经眼花过,但是极少,因此P(眼睛花了)=1%。而眼睛花的时候什么都会发生,因此 P(上半身的人飘过来|眼睛花了)=1。
    • 外国语大学的黑学生很多,因此 P(是一个骑自行车的黑人)=10%,而该原因同样能完美解释该现象,因此 P(上半身的人飘过来|是一个骑自行车的黑人)=1。

    然后,综合先验概率和似然概率的乘积,

    1. P(有鬼)*P(上半身的人飘过来|有鬼)=0.1%
    2. P(眼睛花了)*P(上半身的人飘过来|眼睛花了)=1%
    3. P(上半身的人飘过来)*P(上半身的人飘过来|骑自行车的黑人)=10%

    因此我们得出结论:看到一个只有上半身的白色的人慢慢的飘过来,原因是一个路过的一个骑自行车的黑人学生。

    在实际中,很多人见到这个场景恐怕会吓到屁滚尿流。之所以没能做出正确判断的原因有两点。

    首先,原因的选项不全。很多人根本没考虑自己眼花了,以及骑自行车的黑人这两个原因。你只有一个`见到的是鬼'这个原因备选,那你只能选择这个原因了!

    其次,先验概率估计错误。如果一个人不是坚定的无神论者,而是特别相信和玄幻、鬼神相关的电影、电视、连续剧、网络小说,那么他会在潜意识中放大`有鬼'的先验概率概率,这样也会判断错误。

    所以说,备选原因要全,先验概率要准,这是进行推断的两个非常重要的关键。

    例子3: 有人跟着我

    我在前篇 `媒体的有偏采样三部曲之一:小概率事件导致的常识性错误'中提到这个例子,但是当时只是大概谈了一下,现在我们用贝叶斯的观点重新阐述一下。

    周末的时候你在大街上逛街,突然发现有一个人在你后面跟了一段时间。你心里一下子咯噔一下,脑子开始飞速运转。我们首先列出所有可能的原因:(1)有坏人要害我。(2)无关路人

    其次,我们评估一下每个原因的先验概率和似然概率

    1. 在中国,平均下来每十万人被谋杀1人,因此,平均下来你这一生会遇见一个谋害你的人的概率为 10-5,即P(有坏人要害我)=10-5。如果一个人要害你,他几乎一定会跟着你,因此似然概率
      P(在后面跟了一段时间|有坏人要害我)=1。
    2. 你在大街上逛街,无关路人出现的概率其实非常大。因此P(无关路人)=1。如果是无关路人,在你后面跟了一段时间的概率也会比较大,特别是繁华地区或者通道内。因此我们令P(在后面跟了一段时间|无关路人)=0.6。

    然后,综合先验概率和似然概率的乘积,

    1. P(有坏人要害我)*P(在后面跟了一段时间|有坏人要害我)=10-5
    2. P(无关路人)*P(在后面跟了一段时间|无关路人)=0.6

    因此,我们的结论就是这个人是无关路人。

    注意,这个两个原因的先验概率和场景有关。不同的场景是不一样的。在中国的P(有坏人要害我)很低,可如果你到了一个犯罪率很高的国外地方,例如洪都拉斯的贫民窟,这个先验概率会有将近一百倍的提高。另外,如果你并不是一个繁华大街,而是一些偏僻少有人走的小巷,P(无关路人)也会降低。从这一点来说,在一个犯罪率高的地方就尽量找人多的地方呆着,这倒是符合大部分人的观念。


    先验概率的重要性

    在上一节中的几个例子中(坐飞机遇见剧烈颠簸,有人跟着我,以及检查结果为阳性等),已经体现出了到先验概率的重要性。先验概率作为拿到证据之前对于该原因的基本概率的判断,在很多场合的重要性要远远超过似然概率。甚至在很多情况下,我们根本就不用看似然概率!下面我就举几个例子。

    例子 1: 守门员扑点球

    一个守门员是如何扑点球的? 这是一个典型的信息推断的过程。守门员通过观察到的现象:球员在出脚一瞬间的脚法,球员的眼神等,要在多个判断方向中作出选择。很多非职业的守门员,都是看到球员的出脚动作或者眼神方向,然后选择一个能够解释观察到的现象最好的方向去扑。很明显,他用的是最大似然估计的方法。

    然而,众所周知,在世界顶级赛事中,高水平的足球运动员罚球速度太快,加之一些假动作,使得守门员几乎很难通过这些观测后再来做出反应,而是往往在罚球者出脚之前就要做出扑救动作。换一句话说,如果要判断球员罚球的方向时,需要更倚重于先验概率,即该球员比较喜欢罚哪个位置。

    这里最经典的一个例子是2006年德国与阿根廷的世界杯对决。双方在120分钟的对决中均无建树,比赛被拖入了最紧张最刺激的点球大战。在点球大战之前,德国的助理教练给莱曼送来了一张神秘的小纸条(见图7.4)。莱曼每次扑点球前,都要拿出纸条,默默的看上一眼。最终结果,他所有点球都判断对了方向,除了两个质量太高无力回天以外,其他全部扑出,而阿根廷人只能黯然出局。那么纸条里到底写的什么呢?全部都是各个球员罚点球方向的射门特点!德国人利用主场之便,在阿根廷的训练场布置了摄像头,然后把收集回来的点球训练数据输入电脑,使用专业的分析软件,分析总结出了所有阿根廷射手的射门特点,写在一张小纸条上交给莱曼。这张纸条从上到下的内容依次是:

    • 克鲁兹: 右上角
    • 阿亚拉: 左下角
    • 罗德里格斯: 大力抽射右边
    • 坎比亚索: 短距离助跑抽射左上角

    这些射门特点,就是在莱曼现场观察到他们射门动作前,这些运动员的先验概率!莱曼在场上完全依靠这个先验概率,几乎不靠现场观察到的球员的出脚动作,准确的扑出了大部分的点球。这是一个用贝叶斯估计中,将先验概率用到极致的例子。

    例子 2. 普通人挑西瓜和高手挑西瓜

    我们之前讲了挑西瓜的例子。大部分普通人挑西瓜是先拍,通过声音(假设听到`嘭嘭嘭'的声音),在三个原因,(1) 西瓜没熟,(2)西瓜刚好(3)西瓜熟过之中选一个。

    由于拍之前对这个西瓜一无所知,因此实际上我们是假设这三个原因的先验概率相等,即

    对于似然概率而言,因为我们知道一个正好熟的西瓜通常会发出'嘭嘭嘭'像拍打胸腔一样的浑厚声音,而生的西瓜容易发出'咚咚咚'特别脆的声音,熟过了的西瓜,拍出来的声音大多会'噗噗噗'特别闷的声音。因此,我们可以假设

    这三个可能原因中,先验概率和似然概率的乘积中第二个原因`西瓜刚好'的乘积最大。所以当我们拍一个西瓜时,听到了‘嘭嘭嘭’的声音,这时候判断,西瓜正好。

    这是我们普通人挑西瓜的方式。

    然而,你知道像我这样挑西瓜的高手是如何挑瓜的么?如果我说,我根本不用拍,就可以把挑中刚好熟西瓜的概率达到95%以上甚至更高,你相信么?

    秘诀就在于,我不是用似然概率挑瓜的,而是用先验概率挑瓜的。什么意思?就是说我在拍西瓜之前,并没有假设西瓜没熟、西瓜刚好和西瓜熟过的概率都是三分之一。这三个概率在我眼中是完全不同的,我是怎么知道的?

    常识!瓜一般5月到10月都有,但是太早或者太晚的西瓜,经常会有没熟或者熟过了的情况。而7,8,9月上市的西瓜,基本上都熟了。所以说,你如果在这三个月买的西瓜,P(西瓜刚好)的概率会非常高。换句话说,这三个月份买的西瓜, 哪怕你听到的不是‘嘭嘭嘭’的声音,也有极大的概率是一个成熟度正好的西瓜。老人说的话,蔬菜水果要吃应季的,就是这个道理。

    收藏家马未都先生在《锵锵三人行》里说了一个他见过的挑瓜的故事,让我印象深刻。他年轻的时候住出版社,出版社外面一堆一堆的有很多卖西瓜的。有一个西瓜摊上一个白发苍苍很儒雅的老头,有人来买瓜,就帮人挑西瓜。后来马未都和他熟了以后,这个老头说了实话,他根本不会挑西瓜,他说挑给人西瓜就一个诀窍:拍三个。 随便拿起第一个拍两下,摇摇头,换第二个同样摇摇头放下,最后随便拿第三个西瓜拍一下,就给人挑好了。

    在我眼里,这简直是应用贝叶斯定理的先验概率以及结合人的心理学的经典案例。夏天上市的西瓜,基本上都是正好熟的,所以不用挑。为什么要拍三个西瓜呢?你拍第一个西瓜就给人,别人认为你没给他挑。你拍太多了,别人又会嘀咕,你这摊上的西瓜咋这么多不熟的啊?

    此外,很多人挑西瓜的时候,实际上最终目的不是看熟不熟,而是想挑到口感好的西瓜。因为熟度正好的西瓜,相对于不熟或者是熟过了的西瓜口感更好。相应的,网上还出了很多挑西瓜的教程,例如一看形状,二看纹路、三看瓜脐、四看瓜蒂、五拍果皮等。甚至你还可以下载一些app,把手机放在西瓜上帮你正确判别声音,从而挑到好瓜。

    在我看来,这些教程和app恰恰犯了过分重视似然概率而忽视先验概率的错误。我悄悄的告诉你,想知道瓜的口感是否好,你不应该纠结于你手里这个瓜的形状、纹路、瓜脐等细节。像我这样真正会挑瓜的人,在我真正拿起手中的瓜之前,就可以八九不离十的判断出来瓜的口感是否好了。

    你问我是怎么判断的,一样啊,用先验概率来判断。在我的眼里,一个西瓜口感好或者不好的先验概率并不是相等的。 我怎么能知道在拍西瓜之前,知道这个先验概率呢?看看摊上的西瓜的品种啊!

    如果你知道你手里西瓜的品种,又了解到个个品种的特点,例如:

    • 玉林瓜与麒麟瓜属于薄皮的爆炸瓜类型,脆甜度很好。
    • 京欣瓜瓜型大,纤维少、甜度高、耐储运。
    • 黑美人口味偏绵甜,皮比较坚硬,耐储运。
    • 宁夏西瓜瓜型大,皮薄、瓤硬、口感好、味纯甜,而且价钱比较便宜。
    • ...
      你就可以在你挑具体的每一个西瓜之前,把这个西瓜的口感是否好,摸一个八九不离十。当然当着朋友的面,你也可以显示自己的挑瓜技巧,随便拍三个瓜,选最后一个,然后拿回家切开一看,皮薄肉甜,就可以给你的朋友炫耀你的本领了。

    例子3: 赌石

    翡翠赌石大家可能都听说过。由于翡翠原石的表层有一层风化皮壳的遮挡,看不到石之内部的情况,就是科学技术发达的今天,也没有一种仪器能穿透皮壳,看清块体内部翡翠的优劣。因此,在交易中,人们只能靠打赌来判断它内部的好与坏,于是就有了“赌石”的概念。

    在我看来,赌石有三层境界,从低到高,分别为:

    1. 纯外行赌石:纯粹靠瞎蒙。
    2. 准内行赌石:通过观察细节,看皮壳、松花、蟒带、藓,以及透光度等等。例如通常情况下,皮壳表面细腻的原石品质比较好,赌涨的几率比较大,所谓皮细肉不糙,还要根据松花、蟒带、癣来判断翡翠赌石的颜色。
    3. 内行赌石:通过观察,看出场口(即出产的场地)。玉石行业有一句名言,不识场口,不玩赌石。著名的场口包括老帕敢、会卡、莫弯基、莫西沙等等。每个场口的翡翠,都会有比较大的概率具有一定的特点。
    4. 高手赌石:真正的高手赌石,算的是更高一层级的先验概率。你想想,翡翠赌石在被开采之后,会有专门的一批真正的高手进行筛选,好的石头基本都已经被挑走了,之后继续向外围扩散,随着挑选人数的逐渐增多,越向外围走,好的赌石就越少,如此不断反复。到了最后,你在远离缅甸地区的翡翠市场中看到一块翡翠原石,不要说是极品翡翠,一般的翡翠都很少能够开出来了。所以,基于这个更高级的先验概率,如果你在距离缅甸十万八千里的地方看到一块赌石,你根本就别赌就是最好的选择。
      不同层级的人,依赖的是不同层级的先验概率。

    例子3: 如何挑书和挑电影

    现在的书籍铺天盖地,在机场你可以看到各种各样的书籍,名字都起的非常好听。但是如果你真的看了几页,就会发现并不如看到的那么好。

    一般人挑书,是看具体内容。而高手挑书,则是看(1)作者,(2)看出版社。如果作者之前有一些经典,或者是出版社是相关权威的出版社,那我们在看这本书具体内容之前,就可以给予这本书更高的评价。这就是在看这本书的具体内容之前的先验概率。

    看电影也是如此,很多人在看电影之前,是过别人的评价,或者网上的打分来确定自己是不是喜欢看。其实这种方法未必科学,因为不同人喜欢的类型不一样,别人喜欢的,你不一定喜欢。这时候一个更靠谱的方法,是看电影的导演!如果这个导演执导过的很多片子你都很喜欢,那么你完全可以给予这个新片以更高的评价。这也是先验概率。


    总结
    1. 贝叶斯定理包括三个概率:后验概率、先验概率和似然概率。后验概率是我们最终想要的,先验概率是原因本身的概率,似然概率反映了该原因解释了观测的程度高低。
    2. 如果我们想要在多个原因之间做出选择,我们不需要知道后验概率的绝对大小,而只想要知道多个原因的后验概率的相对大小。此时贝叶斯定理告诉我们,要选择先验概率与似然概率乘积最大的原因。
    3. 贝叶斯定理选出来的原因,是既能够在一定程度上解释观测到的现象,本身又常见的原因。而最大似然估计选出来的,是解释观测到的现象解释的最好的原因。
    4. 先验概率作为拿到证据之前对于该原因的基本概率的判断,在很多场合的重要性要远远超过似然概率。甚至在很多情况下,我们根本就不用看似然概率。

    相关文章

      网友评论

        本文标题:什么,贝爷帮你挑西瓜?

        本文链接:https://www.haomeiwen.com/subject/acnpdxtx.html