1.6 全概率公式与Bayes公式
例:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?
全概率公式
例:设女性患某种疾病的概率为,男性患该病的概率为,已知全国的男女比例为,求任何一人患该病的概率。
分析:记事件为患该疾病,事件为女性患该病,事件为男性患该病,则
定理:设为样本空间,若事件满足
-
互不相容,即
则称为样本空间的一个分划
,进而可得
也即
该公式称为全概率公式
(Law of Total Probability)
例:袋中有只红球只白球,先从袋中任取一球,记下颜色后放回,同时向袋中放入同颜色的球只,然后再从袋中取出一球。求第二次取到白球的概率。
解:记,显然是的一个分划,由全概率公式有
思考:若第2次向袋中放入同颜色的球只,结果如何?
答:结果不变
例:有10个袋,其中甲袋二个,每袋中有红球、白球各2个;乙袋三个,每袋中有红球3个、白球2个;丙袋五个,每袋中有红球2个、白球3个.从十个袋中任取一袋,再从袋中任取一球,求取到白球的概率.
解:记分别表示取到甲、乙、丙袋,表示取到白球。由全概率公式
问:如果将三个袋中的球混合在一起,然后任取一球,问取到白球的概率是否一样?
答:不同!全概率公式是概率的加权平均。
例:甲、乙两坦克的首发命中率均为0.8,经修正后的第二发命中率均为0.9, 敌目标被一发炮弹击中而被击毁的概率为0.2,被两发炮弹击中而击毁的概率为0.5,被三发炮弹击中必定被击毁. 在战斗中,甲、乙两坦克分别向敌同一目标发射了两发炮弹,求敌目标被击毁的概率.
解:设表示目标被击毁,表示目标被发炮弹击中,。
由全概率公式
Bayes公式(Bayes's Theorem)
事件之间的联系设为样本空间的一个分划,且
则由乘法公式
结合全概率公式,可以得到
该公式称为Bayes公式
Bayes公式体现了一种“因”和“果”的联系,很多时候不仅可以由因推果,也可以由果推因。
通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,Bayes公式就是这种关系的陈述。
有时被称作标准似然度(standardised likelihood),这样一来Bayes定理可表述为:后验概率=标准似然度*先验概率
所谓的Bayes方法源于Tomas Bayes生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在Bayes写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。
实际上,Bayes当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,Bayes方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到Bayes方法的影子,特别地,Bayes是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。
例(吸毒检测):假设一个常规的检测结果的敏感度与可靠度均为,即吸毒者每次检测呈阳性(+)的概率为。而不吸毒者每次检测呈阴性(-)的概率为。从检测结果的概率来看,检测结果是比较准确的,但是Bayes定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?
分析:令为雇员吸毒事件,为雇员不吸毒事件,为检测呈阳性事件。可得
- 代表雇员吸毒的概率,不考虑其他情况,该值为。因为公司的预先统计表明该公司的雇员中有的人吸食毒品,所以这个值就是的先验概率。
- 代表雇员不吸毒的概率,显然,该值为,也就是。
- 代表吸毒者阳性检出率,这是一个条件概率,由于阳性检测准确性是,因此该值为。
- 代表不吸毒者阳性检出率,也就是出错检测的概率,该值为,因为对于不吸毒者,其检测为阴性的概率为,因此,其被误检测成阳性的概率为。
-
代表不考虑其他因素的影响的阳性检出率。该值为或者。具体由全概率公式计算得到:此概率 = 吸毒者阳性检出率()+ 不吸毒者阳性检出率()。是检测呈阳性的先验概率。用数学公式描述为:
根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率:
结论:尽管吸毒检测的准确率高达99%,但Bayes定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。
类似的情况:
- 胰腺癌检测:即使100%的胰腺癌症患者都有某症状,而某人有同样的症状,绝对不代表该人有100%的概率得胰腺癌,还需要考虑先验概率,假设胰腺癌的发病率是十万分之一,而全球有同样症状的人有万分之一,则此人得胰腺癌的概率只有十分之一,90%的可能是是假阳性
- 不良种子检测:假设100%的不良种子都表现A性状,而种子表现A性状,并不代表此种子100%是不良种子,还需要考虑先验概率,假设一共有6万颗不良种子,在种子中的比例是十万分之一(假设总共有60亿颗种子),假设所有种子中有1/3表现A性状(即20亿颗种子表现A性状),则此种子为不良种子的概率只有十万分之三
例:某工厂的一、二、三车间都生产同一产品,产量分别占总产量的15%,80%,5%三个车间的次品率分别为2%,1%,3%.现从汇总起来的产品中任取一个,经检查是次品,判断该次品是哪个车间生产的可能性较大?
分析:这是“因—果”分析问题,故应用Bayes公式
解:记表示取得次品,表示取到的产品是车间生产的,,由全概率公式
再由Bayes公式
可见该次品是第二车间生产的可能性较大。
以上的分析过程也被称为Bayes推断
。
Bayes推断
假定为导致试验结果的“原因”,称为先验概率
。
若试验产生事件,则要探讨事件发生的“原因”,称为后验概率
,称为原因概率
- 先验概率反映了各种“原因”发生的可能性大小
- 先验概率和原因概率可以在试验前分析确定
- 后验概率反映了试验后对各种“原因”发生的可能性大小的推断.后验概率可通过Bayes公式进行计算
- Bayes 方法广泛应用于网络、分类、诊断、估计、检验、判别、推理等方面
例:假定为各种疾病,应用统计方法可确定患病的概率(先验概率)
应用医学知识确定每种疾病下指标(例如体温、脉搏、血象等)出现的概率(原因概率),应用Bayes公式,可以计算出该指标意味着某种疾病的概率(后验概率)
这正是大数据在医疗系统中应用的原理。
课后思考题:习题一:20,21,22,23,24
Bayes公式与人工智能
例(拼写纠正)
经典著作《人工智能:现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在这里,这篇文章很深入浅出,强烈建议读一读),里面用到的就是Bayes方法。
首先,我们的问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:
这个概率,并找出那个使得这个概率最大的猜测单词。
显然,我们的猜测未必是唯一的。比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用Bayes公式来直接算出它们各自的概率,我们不妨将我们的多个猜测记为 ( 代表 hypothesis),它们都属于一个有限且离散的猜测空间 (单词总共就那么多而已),将用户实际输入的单词记为 ( 代表 Data ,即观测数据),于是可以抽象地记为:,类似地,对于我们的猜测2,则是 。不妨统一记为:
运用一次Bayes公式,我们得到:
对于不同的具体猜测 , 都是一样的,所以在比较 和 的时候我们可以忽略这个常数。即我们只需要知道:
这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。
下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下 这个值,然后取最大的,得到的就是最靠谱的猜测。
类似的方法可以用来处理自然语言的二义性问题,例如
The girl saw the boy with a telescope.
到底是 The girl saw-with-a-telescope the boy 这一语法结构,还是 The girl saw the-boy-with-a-telescope 呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想 The girl saw the boy with a book 就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?
比价合理的解释是:如果语法结构是 The girl saw the-boy-with-a-telecope 的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。
还有中文分词的问题,比如
给定一个句子(字串),如:
南京市长江大桥
如何对这个句子进行分词(词串)才是最靠谱的。例如:
-
南京市/长江大桥
-
南京/市长/江大桥
这两个分词,到底哪个更靠谱呢?
显然这个思想还可以推广到机器翻译的领域,甚至是图像识别、垃圾邮件过滤
图像识别中的Bayes方法
网友评论