美文网首页统计学
概率基础3:条件概率和贝叶斯定理

概率基础3:条件概率和贝叶斯定理

作者: 小学生伊文 | 来源:发表于2018-11-22 17:02 被阅读19次

今天来说说条件概率和贝叶斯公式,可能有点难,但是很重要。尽量看,能看懂最好,看不懂的话也没有关系,知道其中的含义就行了。

先来看一个问题:

假设人类患某种癌症的概率是0.08%,现在最先进的技术检测患这种癌的正确率是99%,如果小明检测患这种癌,那么他患这种癌症的概率是多少?

凭直觉来说,检测正确率是99%,那么患癌的概率应该也是99%,真的么?这就要理解条件概率和贝叶斯定理才能找到答案了。

假设有事件A和事件B。

P(B|A)表示事件A发生的前提下,事件B发生的概率。

另外,P(B|A)=P(AB)/P(A)=AB同时发生的概率/A发生的概率

用之前《概率的几种类型》中晴天雨天的例子:

天气:A1晴天,A2雨天

干啥:B1去玩,B2歇着

天气:A1晴天(概率2/3),A2雨天(概率1/3)

干啥:晴天(B1去玩2/3,B2歇着1/3),雨天(B1去玩1/3,B2歇着2/3)

P(B1|A1)表示晴天的前提下,出去玩的概率,应该是2/3。

用公式计算

P(B1|A1)=P(A1B1)/P(A1)

=A1B1同时发生的概率/A1发生的概率

=[(2/3)*(2/3)]/(2/3)=2/3

和上面相等。

所以验证了第一个公式:P(B|A)=P(AB)/P(A)

这个公式变个形:P(AB)=P(B|A)*P(A)=P(A|B)*P(B)

就得出了贝叶斯定理:P(B|A)=[P(A|B)*P(B)]/P(A)

公式看上去复杂,含义也很简单。

如果想知道A发生的前提下B发生的概率,只需要观察B发生的前提下A发生的概率,以及A、B发生的独立概率。

还是上面的例子:

P(B1|A1)表示晴天的前提下,出去玩的概率,应该是2/3。我们想知道P(A1|B1),出去玩的情况下是晴天的概率。这个无法直接观察到,但是另外三个因素可以。

P(A1|B1)=[P(B1|A1)*P(A1)]/P(B1)

=晴天的前提下出去玩的概率*晴天的概率/出去玩的概率

分子=晴天的前提下出去玩的概率*晴天的概率

分母=晴天出去玩的概率+雨天出去玩的概率(根据全概率公式)

=(2/3)*(2/3)/[(2/3)*(2/3)+(1/3)*(1/3)]

=4/5

所以,如果一个人出去玩了,那么这一天是晴天的概率就是4/5。

用上面的公式验证一下。

P(AB)=P(B|A)*P(A)=P(A|B)*P(B)

[(2/3)*(2/3)]=[(2/3)*(2/3)]=(4/5)[(2/3)*(2/3)+(1/3)*(1/3)],都等于4/9

贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易通过对以往的事情观测直接得出P(A|B),而P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们提供了从P(A|B)到P(B|A)的通道。

P(A|B)和P(B|A),一个是先验概率,一个是后验概率。

后验概率 = 先验概率 × 调整因子

比如上面这个例子,我们想知道如果他出去玩,那么这天是晴天的概率是多少,这个很难得直接出。那么可以通过晴天出去玩的概率,以及晴天、他出去玩,这三个概率算出来。

回到最开始的问题。

假设人类患某种癌症的概率是0.08%(即平均1万人有8人患这种癌症),现在最先进的技术检测患这种癌的正确率是99%(患癌检测准确概率99%,不患癌检测准确概率也是99%),如果小明检测患这种癌,那么他患这种癌症的概率是多少?

仅凭直觉判断的话,正确率是99%嘛,那么患癌的概率就是99%,那么可以准备化疗,或者等死了。但是条件概率告诉我们不是这样。

假设A表示小明患癌,B表示检测患癌,那么我们要知道的是P(A|B),而不是(B)。

根据贝叶斯公式:P(A|B)=[P(B|A)*P(A)]/P(B)

P(B|A)表示患癌的前提下,检测患癌的概率,99%

P(A)表示小明患癌的概率,0.08%

P(B)表示随机一个人被检测患癌的概率,根据全概率公式,有两种可能:

患癌被检测患癌+没患癌被检测患癌=0.08%*99%+99.2%*1%

带入上面的公式P(A|B)=7.34%。

也就是说,即便被检测患癌,小明患癌的概率也只有7.34%,和直觉的99%,天差地别。

如果需要确诊,可以再检测一次,检测正确率就变成了99.99%,带入上面的公式:

P(A|B)=88.9%

正确率大幅提升,所以重大的疾病,最好增加一次诊断来确诊,以便得到更加准确的结果。

条件概率的含义其实是,一件事对另一件事发生的概率有影响。比如普通人患癌的概率是0.08%,如果检测患癌且正确率为99%,那么只是把0.08%这个概率提高了,并不是概率就变成了检测的概率。

再来看一个例子:

假设有一个酒鬼,90%概率出去喝酒,去A、B、C三个酒吧,概率相等30%。还有10%的概率在家

警察去了两个酒吧,没有抓住,然后去了第三个酒吧。问:在第三个酒吧抓住酒鬼的概率。

A 30%

B 30%

C 30%

家 10%

直觉有一个答案是90%,因为警察检查三个酒吧抓住酒鬼的概率是90%,如果前面两个没抓住,那么最后一个抓住的概率就是90%。

其实这是有问题的,警察检查前面两个酒吧的没有抓到酒鬼,抓住酒鬼的概率就变小了。前面两个酒吧检查完之后,警察还是不知道酒鬼在不在酒吧,只知道30%在,10%不在。所以在最后一个酒吧抓住酒鬼的概率就是75%。假设警察知道酒鬼在第三个酒吧,故意先去了前面两个酒吧,那么这时候概率才是90%。

同样也可以用条件概率来计算:

假设时间A代表酒鬼出来喝酒了,B代表酒鬼没被抓到,我们想知道的是,酒鬼没被抓到的前提下,出来喝酒了的概率:

P(A|B)=P(B|A)*P(A)/P(B)

P(B|A)表示出来喝酒,没被抓到的概率,1/3

P(A)表示酒鬼出来喝酒的概率,0.9

P(B)表示酒鬼没被抓到的概率,根据全概率公式,包括两种情况:

喝酒没被抓到+没喝酒没被抓到=(9/10)*(1/3)+(1/10)*1=4/10

带入上面的公式,P(A|B)=75%,正确答案应该是75%。

最后,

如果上面都看不懂,那也没关系。你只需要知道,概率是世界运转的才是世界运转的真实状态,直觉以为的概率,大多数时候只是错觉,进而会误导你的判断和行动,做出错误的选择。

相关文章

网友评论

    本文标题:概率基础3:条件概率和贝叶斯定理

    本文链接:https://www.haomeiwen.com/subject/wfzlqqtx.html