1.6 全概率公式与Bayes公式

作者: blueband21c | 来源:发表于2019-03-12 12:49 被阅读0次

1.6 全概率公式与Bayes公式
【数学】概率公式
宗成庆自然语言理解笔记 02 数学基础
概率基础
一、随机事件及其概率笔记
NLP面试-最大似然估计与贝叶斯估计的区别
概率论公式笔记
大数据中的统计学基础——Day3
NLP体系导览
2022-03-16

1.6 全概率公式与Bayes公式

例：一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生，他（她）穿长裤的概率和穿裙子的概率是多大”，这个就是前面说的“正向概率”的计算。然而，假设你走在校园中，迎面走来一个穿长裤的学生（很不幸的是你高度近似，你只看得见他（她）穿的是否长裤，而无法确定他（她）的性别），你能够推断出他（她）是男生的概率是多大吗？

全概率公式

例：设女性患某种疾病的概率为 $0.3$ ，男性患该病的概率为 $0.25$ ，已知全国的男女比例为 $40:42$ ，求任何一人患该病的概率。

分析：记事件 $A$ 为患该疾病，事件 $B_1$ 为女性患该病，事件 $B_2$ 为男性患该病，则
$\begin{aligned} P(A)&=P(AB_1)+P(AB_2)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)\\ &=0.3\cdot\frac{40}{82}+0.25\cdot\frac{42}{82} \approx 0.274 \end{aligned}$

全概率公式

定理：设 $\Omega$ 为样本空间，若事件 $B_1,B_2,...,B_n$ 满足

$B_1,B_2,...,B_n$ 互不相容，即
$B _ { i } B _ { j } = \Phi \quad ( i \neq j , i , i , j = 1,2 , \cdots , n )$
$B _ { 1 } \cup B _ { 2 } \cup \cdots \cup B _ { n } = \Omega$

则称 $\{B_1,B_2,...,B_n\}$ 为样本空间 $\Omega$ 的一个分划，进而可得
$\begin{aligned} P ( A ) & = P \left( A B _ { 1 } \cup A B _ { 2 } \cup \cdots \cup A B _ { n } \right) \\ & = P \left( A B _ { 1 } \right) + P \left( A B _ { 2 } \right) + \cdots + P \left( A B _ { n } \right) \\ & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) + \cdots + P ( A | B _ { n } ) P \left( B _ { n } \right) \end{aligned}$
也即
$P ( A ) = \sum _ { i = 1 } ^ { n } P ( A | B _ { i } ) P \left( B _ { i } \right)$
该公式称为全概率公式（Law of Total Probability）

例：袋中有 $a$ 只红球 $b$ 只白球，先从袋中任取一球，记下颜色后放回，同时向袋中放入同颜色的球 $1$ 只，然后再从袋中取出一球。求第二次取到白球的概率。

解：记 $A=\{\text{第二次取到白球}\},B_1=\{\text{第一次取到白球}\},B_2=\{\text{第一次取到红球}\}$ ，显然 $B_1,B_2$ 是 $\Omega$ 的一个分划，由全概率公式有
$\begin{aligned} P ( A ) & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) \\ & = \frac { b + 1 } { a + b + 1 } \cdot \frac { b } { a + b } + \frac { b } { a + b + 1 } \cdot \frac { a } { a + b } \\ & = \frac { b } { a + b } \end{aligned}$

思考：若第2次向袋中放入同颜色的球 $c$ 只，结果如何？
答：结果不变

例：有10个袋,其中甲袋二个,每袋中有红球、白球各2个;乙袋三个,每袋中有红球3个、白球2个;丙袋五个,每袋中有红球2个、白球3个.从十个袋中任取一袋,再从袋中任取一球,求取到白球的概率.

解：记 $B_1,B_2,B_3$ 分别表示取到甲、乙、丙袋， $A$ 表示取到白球。由全概率公式
$\begin{aligned} P ( A ) & = \sum _ { i = 1 } ^ { 3 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = \frac { 2 } { 10 } \cdot \frac { 2 } { 4 } + \frac { 3 } { 10 } \cdot \frac { 2 } { 5 } + \frac { 5 } { 10 } \cdot \frac { 3 } { 5 } = \frac { 13 } { 25 } \end{aligned}$

问：如果将三个袋中的球混合在一起，然后任取一球，问取到白球的概率是否一样？
答：不同！全概率公式是概率的加权平均。

例：甲、乙两坦克的首发命中率均为0.8,经修正后的第二发命中率均为0.9, 敌目标被一发炮弹击中而被击毁的概率为0.2,被两发炮弹击中而击毁的概率为0.5,被三发炮弹击中必定被击毁. 在战斗中,甲、乙两坦克分别向敌同一目标发射了两发炮弹,求敌目标被击毁的概率.

解：设 $A$ 表示目标被击毁， $B_i$ 表示目标被 $i$ 发炮弹击中， $i=1,2,3,4$ 。
$\begin{array} { l } { P \left( B _ { 1 } \right) = 2 ( 0.8 \times 0.2 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.05 ) = 0.0046 } \\ { P \left( B _ { 2 } \right) = 0.8 \times 0.8 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.95 } \\ {\quad\quad\quad\quad +4 \times 0.8 \times 0.2 \times 0.95 \times 0.05 = 0.0681 } \\ { P \left( B _ { 3 } \right) = 2 ( 0.8 \times 0.8 \times 0.95 \times 0.05 + 0.8 \times 0.2 \times 0.95 \times 0.95 ) = 0.3496 } \\ { P \left( B _ { 4 } \right) = 0.8 \times 0.8 \times 0.95 \times 0.95 = 0.5776 } \end{array}$
由全概率公式
$\begin{aligned} P ( A ) & = \sum _ { i = 0 } ^ { 4 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = 0 . .2 \times 0.0046 + 0.5 \times 0.0681 + 1 \times 0.3496 + 1 \times 0.5776 \\ & = 0.96217 \end{aligned}$

Bayes公式（Bayes's Theorem）

事件之间的联系

设 $\left\{ B _ { 1 } , B _ { 2 } , \cdots , B _ { n } \right\}$ 为样本空间的一个分划，且
$P ( A ) > 0 , P \left( B _ { i } \right) > 0 \quad ( i = 1,2 , \cdots , n )$
则由乘法公式
$P \left( B _ { i } | A \right) P ( A ) = P ( A | B _ { i } ) P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )$
结合全概率公式 $P ( A ) = \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right)$ ，可以得到
$P \left( B _ { i } | A \right) = \frac { P ( A | B _ { i } ) P \left( B _ { i } \right) } { \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right) } ( i = 1,2 , \cdots , n )$
该公式称为Bayes公式

Bayes公式

Bayes公式体现了一种“因”和“果”的联系，很多时候不仅可以由因推果，也可以由果推因。

通常，事件A在事件B已发生的条件下发生的概率，与事件B在事件A已发生的条件下发生的概率是不一样的。然而，这两者是有确定的关系的，Bayes公式就是这种关系的陈述。
$P(B_j|A)P(B_j)$ 有时被称作标准似然度（standardised likelihood），这样一来Bayes定理可表述为：后验概率=标准似然度*先验概率

所谓的Bayes方法源于Tomas Bayes生前为解决一个“逆概”问题写的一篇文章，而这篇文章是在他死后才由他的一位朋友发表出来的。在Bayes写这篇文章之前，人们已经能够计算“正向概率”，如“假设袋子里面有N个白球，M个黑球，你伸手进去摸一把，摸出黑球的概率是多大”。而一个自然而然的问题是反过来：“如果我们事先并不知道袋子里面黑白球的比例，而是闭着眼睛摸出一个（或好几个）球，观察这些取出来的球的颜色之后，那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题，就是所谓的逆概问题。

实际上，Bayes当时的论文只是对这个问题的一个直接的求解尝试，并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来，Bayes方法席卷了概率论，并将应用延伸到各个问题领域，所有需要作出概率预测的地方都可以见到Bayes方法的影子，特别地，Bayes是机器学习的核心方法之一。这背后的深刻原因在于，现实世界本身就是不确定的，人类的观察能力是有局限性的（否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行，还需要对原子模型争吵不休吗？），我们日常所观察到的只是事物表面上的结果，沿用刚才那个袋子里面取球的比方，我们往往只能知道从里面取出来的球是什么颜色，而并不能直接看到袋子里面实际的情况。

例（吸毒检测）：假设一个常规的检测结果的敏感度与可靠度均为 $99\%$ ，即吸毒者每次检测呈阳性（+）的概率为 $99\%$ 。而不吸毒者每次检测呈阴性（-）的概率为 $99\%$ 。从检测结果的概率来看，检测结果是比较准确的，但是Bayes定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测，已知 $0.5\%$ 的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高？

分析：令 $D$ 为雇员吸毒事件， $N$ 为雇员不吸毒事件， $+$ 为检测呈阳性事件。可得

$P(D)$ 代表雇员吸毒的概率，不考虑其他情况，该值为 $0.005$ 。因为公司的预先统计表明该公司的雇员中有 $0.5\%$ 的人吸食毒品，所以这个值就是 $D$ 的先验概率。
$P(N)$ 代表雇员不吸毒的概率，显然，该值为 $0.995$ ，也就是 $1-P(D)$ 。
$P(+|D)$ 代表吸毒者阳性检出率，这是一个条件概率，由于阳性检测准确性是 $99\%$ ，因此该值为 $0.99$ 。
$P(+|N)$ 代表不吸毒者阳性检出率，也就是出错检测的概率，该值为 $0.01$ ，因为对于不吸毒者，其检测为阴性的概率为 $99\%$ ，因此，其被误检测成阳性的概率为 $1 - 0.99 = 0.01$ 。
$P(+)$ 代表不考虑其他因素的影响的阳性检出率。该值为 $0.0149$ 或者 $1.49\%$ 。具体由全概率公式计算得到：此概率 = 吸毒者阳性检出率（ $0.5\% \times 99\% = 0.495\%$ )+ 不吸毒者阳性检出率（ $99.5\% \times 1\% = 0.995\%$ )。 $P(+)=0.0149$ 是检测呈阳性的先验概率。用数学公式描述为：
$P(+)=P(+ \cap D)+P(+\cap N)=P(+| D) P(D)+P(+| N) P(N)$

根据上述描述，我们可以计算某人检测呈阳性时确实吸毒的条件概率 $P(D|+)$ ：
$\begin{aligned} P(D |+) &=\frac{ P(+| D) P(D)}{P(+)} \\ &=\frac{P(+| D) P(D)}{P(+| D) P(D)+P(+| N) P(N)} \\ &=\frac{0.99 \times 0.005}{0.99 \times 0.005+0.01 \times 0.995} \\ &=0.3322 \end{aligned}$
结论：尽管吸毒检测的准确率高达99%，但Bayes定理告诉我们：如果某人检测呈阳性，其吸毒的概率只有大约33%，不吸毒的可能性比较大。假阳性高，则检测的结果不可靠。

类似的情况：

胰腺癌检测：即使100%的胰腺癌症患者都有某症状，而某人有同样的症状，绝对不代表该人有100%的概率得胰腺癌，还需要考虑先验概率，假设胰腺癌的发病率是十万分之一，而全球有同样症状的人有万分之一，则此人得胰腺癌的概率只有十分之一，90%的可能是是假阳性
不良种子检测：假设100%的不良种子都表现A性状，而种子表现A性状，并不代表此种子100%是不良种子，还需要考虑先验概率，假设一共有6万颗不良种子，在种子中的比例是十万分之一（假设总共有60亿颗种子），假设所有种子中有1/3表现A性状（即20亿颗种子表现A性状），则此种子为不良种子的概率只有十万分之三

例：某工厂的一、二、三车间都生产同一产品，产量分别占总产量的15%,80%,5%三个车间的次品率分别为2%,1%,3%.现从汇总起来的产品中任取一个,经检查是次品,判断该次品是哪个车间生产的可能性较大？

分析：这是“因—果”分析问题，故应用Bayes公式

解：记 $A$ 表示取得次品， $B_i$ 表示取到的产品是 $i$ 车间生产的， $i=1,2,3$ ，由全概率公式
$\begin{aligned} P ( A ) & = \sum _ { j = 1 } ^ { 3 } P ( A | B _ { j } ) P \left( B _ { j } \right) \\ & = 0.02 \times 0.15 + 0.01 \times 0.80 + 0.03 \times 0.05 = 0.0125 \end{aligned}$
再由Bayes公式
$\begin{array} { l } { P \left( B _ { 1 } | A \right) = \frac { P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) } { P ( A ) } = \frac { 0.02 \times 0.15 } { 0.0125 } = 0.24 } \\ { P \left( B _ { 2 } | A \right) = \frac { 0.01 \times 0.80 } { 0.0125 } = 0.64 } \\ { P \left( B _ { 3 } | A \right) = \frac { 0.03 \times 0.05 } { 0.0125 } = 0.12 } \end{array}$
可见该次品是第二车间生产的可能性较大。

以上的分析过程也被称为Bayes推断。

Bayes推断

假定 $B _ { 1 } , B _ { 2 } , \cdots , B _ { n }$ 为导致试验结果的“原因”，称 $P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )$ 为先验概率。

若试验产生事件 $A$ ，则要探讨事件发生的“原因”，称 $P(B_i|A)$ 为后验概率，称 $P(A|B_i)$ 为原因概率

先验概率反映了各种“原因”发生的可能性大小
先验概率和原因概率可以在试验前分析确定
后验概率反映了试验后对各种“原因”发生的可能性大小的推断.后验概率可通过Bayes公式进行计算
Bayes 方法广泛应用于网络、分类、诊断、估计、检验、判别、推理等方面

例：假定 $B _ { 1 } , B _ { 2 } , \cdots , B _ { n }$ 为各种疾病，应用统计方法可确定患病的概率（先验概率）
$P \left( B _ { i } \right) \quad ( i = 1,2 , \cdots , n )$
应用医学知识确定每种疾病下指标 $A$ （例如体温、脉搏、血象等）出现的概率（原因概率），应用Bayes公式，可以计算出该指标意味着某种疾病的概率（后验概率）
$P \left( B _ { i } | A \right) \quad ( i = 1,2 , \cdots , n )$
这正是大数据在医疗系统中应用的原理。

课后思考题：习题一：20，21，22，23，24

参见数学之美番外篇：平凡而又神奇的贝叶斯方法

Bayes公式与人工智能

例（拼写纠正）

经典著作《人工智能：现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章（原文在这里，这篇文章很深入浅出，强烈建议读一读），里面用到的就是Bayes方法。

首先，我们的问题是我们看到用户输入了一个不在字典中的单词，我们需要去猜测：“这个家伙到底真正想输入的单词是什么呢？”用刚才我们形式化的语言来叙述就是，我们需要求：
$P(\text{我们猜测他想输入的单词} | \text{他实际输入的单词})$
这个概率，并找出那个使得这个概率最大的猜测单词。

显然，我们的猜测未必是唯一的。比如用户输入： thew ，那么他到底是想输入 the ，还是想输入 thaw ？到底哪个猜测可能性更大呢？幸运的是我们可以用Bayes公式来直接算出它们各自的概率，我们不妨将我们的多个猜测记为 $h_1, h2,...$ （ $h$ 代表 hypothesis），它们都属于一个有限且离散的猜测空间 $H$ （单词总共就那么多而已），将用户实际输入的单词记为 $D$ （ $D$ 代表 Data ，即观测数据），于是 $P(\text{我们的猜测1 }| \text{他实际输入的单词})$ 可以抽象地记为： $P(h_1 | D)$ ，类似地，对于我们的猜测2，则是 $P(h_2 | D)$ 。不妨统一记为：
$P(h | D)$
运用一次Bayes公式，我们得到：
$P(h | D) = \frac{P(h) \times P(D | h)}{ P(D)}$
对于不同的具体猜测 $h_1, h_2, h_3,…$ ， $P(D)$ 都是一样的，所以在比较 $P(h_1 | D)$ 和 $P(h_2 | D)$ 的时候我们可以忽略这个常数。即我们只需要知道：
$P(h | D) ∝ P(h) \times P(D | h)$
这个式子的抽象含义是：对于给定观测数据，一个猜测是好是坏，取决于“这个猜测本身独立的可能性大小（先验概率，Prior ）”和“这个猜测生成我们观测到的数据的可能性大小”（似然，Likelihood ）的乘积。具体到我们的那个 thew 例子上，含义就是，用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性（频繁程度）大小（先验概率）和想打 the 却打成 thew 的可能性大小（似然）的乘积。

下面的事情就很简单了，对于我们猜测为可能的每个单词计算一下 $P(h) \times P(D | h)$ 这个值，然后取最大的，得到的就是最靠谱的猜测。

类似的方法可以用来处理自然语言的二义性问题，例如

The girl saw the boy with a telescope.

到底是 The girl saw-with-a-telescope the boy 这一语法结构，还是 The girl saw the-boy-with-a-telescope 呢？两种语法结构的常见程度都差不多（你可能会觉得后一种语法结构的常见程度较低，这是事后偏见，你只需想想 The girl saw the boy with a book 就知道了。当然，实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点，但是绝对不足以解释我们对第一种结构的强烈倾向）。那么到底为什么呢？

比价合理的解释是：如果语法结构是 The girl saw the-boy-with-a-telecope 的话，怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏？这也忒小概率了吧。他咋就不会拿本书呢？拿什么都好。怎么偏偏就拿了望远镜？所以唯一的解释是，这个“巧合”背后肯定有它的必然性，这个必然性就是，如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话，就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的，那么这个东西是一个望远镜就完全可以解释了（不再是小概率事件了）。

还有中文分词的问题，比如

给定一个句子（字串），如：

南京市长江大桥

如何对这个句子进行分词（词串）才是最靠谱的。例如：

南京市/长江大桥
南京/市长/江大桥

这两个分词，到底哪个更靠谱呢？

显然这个思想还可以推广到机器翻译的领域，甚至是图像识别、垃圾邮件过滤

图像识别中的Bayes方法

1.6 全概率公式与Bayes公式
1.6 全概率公式与Bayes公式例：一所学校里面有 60% 的男生，40% 的女生。男生总是穿长裤，女生则一半...
【数学】概率公式
全概率公式（Total Probability Theorem）：贝叶斯公式（Bayes Rule）：条件概率...
宗成庆自然语言理解笔记 02 数学基础
2.1 概率论基础全概率公式贝叶斯法则(Bayes' theorem) 贝叶斯决策理论(Bayesian de...
概率基础
写在前面随机事件与概率随机试验随机事件和样本空间概率的定义概率的三大性质条件概率全概率公式与贝叶斯公式全概率公式...
一、随机事件及其概率笔记
事件运算公式：概率性质，注意与事件运算是两码事，二者相互独立：排列组合公式条件概率公式相互独立事件全概率...
NLP面试-最大似然估计与贝叶斯估计的区别
1 相关理论 1.1 全概率公式全概率公式为概率论中的重要公式，它将对一复杂事件A的概率求解问题转化为了在不同情...
概率论公式笔记
全概率公式：，其中组成了一个完备事件集；全概率公式：，其中和是边缘概率密度；组合数公式：由得出；二项分布求和...
大数据中的统计学基础——Day3
本章内容条件概率乘法定理全概率公式贝叶斯公式、先验与后验相互独立、互斥、对立（互逆）一、条件概率已知...
NLP体系导览
自然语言处理(NLP) 数学基础概率论条件概率、联合概率与独立全概率公式与贝叶斯公式信息熵马尔科夫过程图论贝叶...
2022-03-16
条件概率概率乘法全概率公式贝叶斯公式分母为全概率公式,分子为其中一项 n重贝努力(n次试验中发生k次结果的概...

1.6 全概率公式与Bayes公式