今天来说说条件概率和贝叶斯公式,可能有点难,但是很重要。尽量看,能看懂最好,看不懂的话也没有关系,知道其中的含义就行了。
先来看一个问题:
假设人类患某种癌症的概率是0.08%,现在最先进的技术检测患这种癌的正确率是99%,如果小明检测患这种癌,那么他患这种癌症的概率是多少?
凭直觉来说,检测正确率是99%,那么患癌的概率应该也是99%,真的么?这就要理解条件概率和贝叶斯定理才能找到答案了。
假设有事件A和事件B。
P(B|A)表示事件A发生的前提下,事件B发生的概率。
另外,P(B|A)=P(AB)/P(A)=AB同时发生的概率/A发生的概率
用之前《概率的几种类型》中晴天雨天的例子:
天气:A1晴天,A2雨天
干啥:B1去玩,B2歇着
天气:A1晴天(概率2/3),A2雨天(概率1/3)
干啥:晴天(B1去玩2/3,B2歇着1/3),雨天(B1去玩1/3,B2歇着2/3)
P(B1|A1)表示晴天的前提下,出去玩的概率,应该是2/3。
用公式计算
P(B1|A1)=P(A1B1)/P(A1)
=A1B1同时发生的概率/A1发生的概率
=[(2/3)*(2/3)]/(2/3)=2/3
和上面相等。
所以验证了第一个公式:P(B|A)=P(AB)/P(A)
这个公式变个形:P(AB)=P(B|A)*P(A)=P(A|B)*P(B)
就得出了贝叶斯定理:P(B|A)=[P(A|B)*P(B)]/P(A)
公式看上去复杂,含义也很简单。
如果想知道A发生的前提下B发生的概率,只需要观察B发生的前提下A发生的概率,以及A、B发生的独立概率。
还是上面的例子:
P(B1|A1)表示晴天的前提下,出去玩的概率,应该是2/3。我们想知道P(A1|B1),出去玩的情况下是晴天的概率。这个无法直接观察到,但是另外三个因素可以。
P(A1|B1)=[P(B1|A1)*P(A1)]/P(B1)
=晴天的前提下出去玩的概率*晴天的概率/出去玩的概率
分子=晴天的前提下出去玩的概率*晴天的概率
分母=晴天出去玩的概率+雨天出去玩的概率(根据全概率公式)
=(2/3)*(2/3)/[(2/3)*(2/3)+(1/3)*(1/3)]
=4/5
所以,如果一个人出去玩了,那么这一天是晴天的概率就是4/5。
用上面的公式验证一下。
P(AB)=P(B|A)*P(A)=P(A|B)*P(B)
[(2/3)*(2/3)]=[(2/3)*(2/3)]=(4/5)[(2/3)*(2/3)+(1/3)*(1/3)],都等于4/9
贝叶斯定理之所以有用,是因为我们在生活中经常遇到这种情况:我们可以很容易通过对以往的事情观测直接得出P(A|B),而P(B|A)则很难直接得出,但我们更关心P(B|A),贝叶斯定理就为我们提供了从P(A|B)到P(B|A)的通道。
P(A|B)和P(B|A),一个是先验概率,一个是后验概率。
后验概率 = 先验概率 × 调整因子
比如上面这个例子,我们想知道如果他出去玩,那么这天是晴天的概率是多少,这个很难得直接出。那么可以通过晴天出去玩的概率,以及晴天、他出去玩,这三个概率算出来。
回到最开始的问题。
假设人类患某种癌症的概率是0.08%(即平均1万人有8人患这种癌症),现在最先进的技术检测患这种癌的正确率是99%(患癌检测准确概率99%,不患癌检测准确概率也是99%),如果小明检测患这种癌,那么他患这种癌症的概率是多少?
仅凭直觉判断的话,正确率是99%嘛,那么患癌的概率就是99%,那么可以准备化疗,或者等死了。但是条件概率告诉我们不是这样。
假设A表示小明患癌,B表示检测患癌,那么我们要知道的是P(A|B),而不是(B)。
根据贝叶斯公式:P(A|B)=[P(B|A)*P(A)]/P(B)
P(B|A)表示患癌的前提下,检测患癌的概率,99%
P(A)表示小明患癌的概率,0.08%
P(B)表示随机一个人被检测患癌的概率,根据全概率公式,有两种可能:
患癌被检测患癌+没患癌被检测患癌=0.08%*99%+99.2%*1%
带入上面的公式P(A|B)=7.34%。
也就是说,即便被检测患癌,小明患癌的概率也只有7.34%,和直觉的99%,天差地别。
如果需要确诊,可以再检测一次,检测正确率就变成了99.99%,带入上面的公式:
P(A|B)=88.9%
正确率大幅提升,所以重大的疾病,最好增加一次诊断来确诊,以便得到更加准确的结果。
条件概率的含义其实是,一件事对另一件事发生的概率有影响。比如普通人患癌的概率是0.08%,如果检测患癌且正确率为99%,那么只是把0.08%这个概率提高了,并不是概率就变成了检测的概率。
再来看一个例子:
假设有一个酒鬼,90%概率出去喝酒,去A、B、C三个酒吧,概率相等30%。还有10%的概率在家
警察去了两个酒吧,没有抓住,然后去了第三个酒吧。问:在第三个酒吧抓住酒鬼的概率。
A 30%
B 30%
C 30%
家 10%
直觉有一个答案是90%,因为警察检查三个酒吧抓住酒鬼的概率是90%,如果前面两个没抓住,那么最后一个抓住的概率就是90%。
其实这是有问题的,警察检查前面两个酒吧的没有抓到酒鬼,抓住酒鬼的概率就变小了。前面两个酒吧检查完之后,警察还是不知道酒鬼在不在酒吧,只知道30%在,10%不在。所以在最后一个酒吧抓住酒鬼的概率就是75%。假设警察知道酒鬼在第三个酒吧,故意先去了前面两个酒吧,那么这时候概率才是90%。
同样也可以用条件概率来计算:
假设时间A代表酒鬼出来喝酒了,B代表酒鬼没被抓到,我们想知道的是,酒鬼没被抓到的前提下,出来喝酒了的概率:
P(A|B)=P(B|A)*P(A)/P(B)
P(B|A)表示出来喝酒,没被抓到的概率,1/3
P(A)表示酒鬼出来喝酒的概率,0.9
P(B)表示酒鬼没被抓到的概率,根据全概率公式,包括两种情况:
喝酒没被抓到+没喝酒没被抓到=(9/10)*(1/3)+(1/10)*1=4/10
带入上面的公式,P(A|B)=75%,正确答案应该是75%。
最后,
如果上面都看不懂,那也没关系。你只需要知道,概率是世界运转的才是世界运转的真实状态,直觉以为的概率,大多数时候只是错觉,进而会误导你的判断和行动,做出错误的选择。
网友评论