很多人在学习贝叶斯相关理论的时候,头很大,脑袋却很空,不论是教科书上还是网上各种博客(基本上都号称用最通俗的语言解释贝叶斯),但是基本上都是感觉在隔靴瘙痒,不能让人有恍然大悟的酸爽。
我和这个贝叶斯也算是纠缠了有些日子,从大学的概率课程通过老师的唾沫横飞的表演开始了解到这个东西,当时也就为了应付一下考试罢了,也就是记住了公式,不好意思,一不小心概率考了100分,现在想想,完全没有卵用,脑袋还是很空,顶多把这个公式背的比别人熟悉一点,就不吐槽啥教育模式了。现在做机器学习需要用到贝叶斯,发现如论如何都避不开贝爷了,看几篇论文就会偶遇贝爷的身影,实在备不住,只能设法把贝爷搞服,搞透。
不得要领的原因很简单,因为贝叶斯公式很难给我们一个直观的感受,我发现我们很多时候之所以很难理解一个概念,一个公式,那是因为我们没法直观的感受概念和公式描绘出来的东西,都说有人逻辑思维好,抽象能力强,但对于普通人来说,具像的感受才是我们擅长的。我今天就是来把这个贝叶斯具像化,让每一个人都能理解。
首先,讲贝叶斯必须把基础讲清楚,我也尽量做到具像化的描述而不故弄玄虚吧,让我们一起戳破高大上专业词汇和公式下的简单原理吧。
陈希儒老先生的教材《概率论与数理统计》一书中有一句话说的好:
说乙估计事件A的概率为0.2,这听起来不甚了然和不好理解,但如果乙说“我认为A事件发生的机会,正如在4黑球和1白球中,抽出白球的机会”,则人们就感到顿时领悟了他的意思。
鉴于此,我们就使用最简单的摸球来演绎这些概念
第一个是条件概率:
1.一百个球,10个白色的,90个黑色的,现在蒙上眼睛随意抽取一个,白球被抽到的概率是多少?任何人都知道是 10/(10+90)=1/10。
2.一百个球,10个白色的,90个黑色的,分别装在a和b两个盒子里,a中2个白球80个黑球,b中8个白球10个黑球,现在蒙上眼睛随意抽取一个,白球被抽到的概率是多少?
和上面一样概率还是1/10,这没错吧?这不过装到两个盒子中了,还是一顿乱摸。
3.一百个球,10个白色的,90个黑色的,分别装在a和b两个盒子里,a中2个白球80个黑球,b中8个白球10个黑球,现在蒙上眼睛随意“在a中”抽取一个,注意是在a中了,白球被抽到的概率是多少?很显然2/(2+80)=1/41,同样的如果在b中这个概率就是8/(8+10)= 4/9。
okay,到这里就可以讲条件概率了:
用P(A)表示一次抽取后抽到白球的概率,在这100个白球中这个概率是1/10,这个三岁小孩都能想到,但是一旦我们说这次抽取是从a盒子中抽取的,那么这个概率就变了,变成1/41了,换句话说:
当我们知道“某次抽取是从A盒子中抽取的”这个条件后,建立在这个条件下再来考虑抽到白球的概率,就会和没有任何条件下考虑的不一样了,我们使用P(B)来表示某次抽取是取自a盒子的概率,那么就得到条件概率的公式了:
P(A|B) = P(AB)/P(B)
具体到这个例子中就是这个样子的:
在B事件(盒子a中抽取)发生后,白色球的概率=在a盒子中抽取且抽到白球事件的概率/B事件的概率
=(2/100)/(82/100)=1/41
这个计算还是稍微说明一下,P(AB)表示在a盒子中抽取且抽到白球事件的概率,能发生这个的只能是一次抽取的时候恰巧在a盒子中抽取了白色球,因为a盒子中只有2个白色球,而全体的球有100个,所以P(AB)=2/100。同样的道理,P(B)表示在一次抽取中恰巧抽到a盒子,由于a盒子一共有82个球,而全体的球有100个所以P(B)=(82/100)
条件概率虽然简单,但是这个过程还是值得细细的考虑的,不管怎样,我们了解了条件概率的概念。
然后是全概率公式
这里我先给出公式,然后解释,因为这个公式太精彩了,没有忍住
P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) + ....
注意其中B1,B2....组成的是一个“完备事件群”,稍微介绍一下“完备事件群”的性质
P(BiBj)=0(即两两互斥)
P(B1) + P(B2) + .... =1(理解为每结果中都必然出现某个Bi事件)
为啥说这个公式精彩?全概率公式和多项式展开,积分等的思想如出一辙,都是拿许多简单的个体组成一个整体。
这个是怎么推导过来的呢?也顺便提一下:
P(A) = P(AΩ) Ω是一个必然事件(即“完备事件群”),没错吧?
P(AΩ) = P(A(B1 + B2+.....)) = P(AB1 + AB2 + .....)对吧?用一个具体的“完备事件群”来表示Ω,然后使用结合律
P(AB1+AB2+.....) = P(AB1) + P(AB2) +... 对吧?因为B1,B2等都是两两互斥的
所以有
P(A) = P(AB1) + P(AB2) +...
然后根据条件概率公式的变形
P(A|B) = P(AB)/P(B)--P(AB)=P(B)P(A|B)
得到全概率公式:
P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) + ....
就说这么多吧,这两个概念是理解贝叶斯的基础,所以简单的介绍了一下,接下来进入正题!
贝叶斯,到底在讲啥
还是上述的两个盒子a和b,
我们使用一次条件概率公式
P(A|B1) = P(AB1)/P(B1)
注:这里B1表示从a盒子里面抽取这个事件
这个条件概率说明了一个原因到结果的问题:
原因:从a盒子里面抽取(B事件)
结果:抽到了白球(A事件)
简单来说就是B事件发生后导致A事件发生的概率
okay贝叶斯解决了一个反过来的问题:
P(B1|A) = ?
这是一个表明了结果到原因的问题,为何这么说,想象一下,我们在做这种摸球实验的时候,我们最后一直在统计球的颜色,因此球的颜色才是我们要的“结果”,不论这个球从哪里来。
P(B1|A) 说的就是当A发生(得到白球)的时候,每个导致的原因(从哪个盒子来)的概率是多少。
下面推导一下:
P(B1|A) = P(AB1)/P(A) 条件概率没错吧?
P(A) = P(B1)P(A|B1) + P(B2)P(A|B2) 全概率公式没错吧?
所以:
P(B1|A) = P(AB1) / (P(B1)P(A|B1) + P(B2)P(A|B2))
P(AB1) = P(B1)P(A|B1) 再次使用条件概率(变形)
所以:
P(B1|A) = P(B1)P(A|B1) / [P(B1)P(A|B1) + P(B2)P(A|B2)]
这就得到了大名鼎鼎的贝叶斯公式。
看上去好像就是使用条件概率和全概率公式的一点简单的推导,事实上贝叶斯本人也是这么认为,觉得没有啥卵用,因此自己也没有把它发表出来,直到在他死后,人们在整理他的生前资料的时候,发现了这个公式,进入了大众的视野,大众逐渐揭示了这个看似普通的公式的深刻含义。
回到盒子摸球问题,假设我们抽取出来了一个白球,那么从a盒子和从b盒子来的概率分别是多少?这就可以利用贝叶斯公式了
场景回顾:
a中2个白球80个黑球,b中8个白球10个黑球
从a盒子:
P(B1|A) = P(B1)P(A|B1) / [P(B1)P(A|B1) + P(B2)P(A|B2)]
= (82/100)*(1/41)/[(82/100)*(1/41)+(18/100)*(4/9)]
= 2/10
想来也很简单,已经知道摸出了白球,a盒子里面有2个,而b盒子里面有8个,那么来自a盒子的自然有 2/(2+8)= 2/10
之所以摸球的场景这么简单,这么自然,是因为摸球是一个典型的“古典概率”(也叫古典概型),即每个事件都是等可能的,我们在思考等可能的,离散的,有界的问题是很擅长的。
下面在来说两个在解释贝叶斯公式的时候经常被引用的,但是有一点隐晦的例子:
病菌检测和盗贼问题
1.病菌检测问题:
直接上陈希儒老先生举的例子:
设某种病菌在人口中的带菌率为0.03,当检查时,由于技术及操作的不完善以及种种特殊原因,使带菌者未必检测出阳性而不带菌者也可能呈现阳性反应,假定:
P(阳性|带菌) = 0.99 P(阴性|带菌) = 0.01
P(阳性|不带菌) =0.05 P(阴性|不带菌) = 0.95
如果一个人被检测出来成阳性,那他带菌的概率是多少?
0.99?未免也太惨了,让我们用贝叶斯公式去安慰一下他吧!
如果我直接用贝叶斯公式:
(0.03*0.99)/ [(0.03*0.99 + 0.97*0.05] = 0.380
这确实是结果,但是你一定会先感到惊奇,然后感到无法直观感受。那么让我们类比摸球的例子来看这个问题。
我们想一下上述的各个概率从哪里来的,肯定是检测机构对你说你检测出阳性后,再语重心长的和你出示了:
P(阳性|带菌) = 0.99 P(阴性|带菌) = 0.01
P(阳性|不带菌) =0.05 P(阴性|不带菌) = 0.95
这个表,他们怎么得到这个表的?
对!统计来的,在很多人来检测以后,他们统计出了这种结果,这个统计过程就是从盒子里面摸球的过程。
人群中带菌者组成一个盒子,不带菌者组成一个盒子,每次来检测,都相当于在这个盒子里抽出一个球。
再来类比一下,把阳性比做白球,把阴性比做黑球,一切就很清晰了!
0.03和0.97分别是每次来检测的人到底是从哪个盒子(带菌或者不带菌)来的概率,就好像是从哪个盒子理摸白球的概率,因为人群中带菌盒子和不带菌盒子的大小就是0.03比0.97。
再来简单回顾一下:
盒子是因,球颜色是果——带菌是因,阴阳性是果,如此清晰!
关于盗贼的问题,有兴趣自己还是类比一下摸球模型自行思考一下吧,有时间我回来再来写。
网友评论