如何理解条件概率

作者: 战神猴哥 | 来源:发表于2019-08-11 21:05 被阅读15次

如何理解条件概率？
如何理解条件概率
全概率公式和贝叶斯公式的理解
从三个例子理解贝叶斯定理
条件概率的理解
条件概率分布与机器学习
条件概率
贝叶斯分类器
CRF
概率论与数理统计04：条件概率

上一篇文章，我们聊到了彩票中的数学期望，在生活中，数学期望可以帮助我们做很多重要决策。今天，我们继续聊一个对生活帮助很大的概率学知识——条件概率

说到条件概率，许多人上学的时候都觉得不好理解，尤其是公式比较绕，记忆起来很困难。其实这个公式是不需要死记硬背的，理解了原理之后，可以非常自然的把公式写出来。

先看一个例子。

小明是个有志青年，他听了王健林的一个亿小目标后，决心干一番事业。经过一番调研后，他决定做生意。他估计有30%的可能性坚持一年，但只要坚持一年，就有60%的可能性能做成功。现在问题来了，小王想知道自己选择做生意，有多大可能性能成功。

分析一下这个问题可知，小王选择做生意这条路，首先要坚持一年，再坚持一年的基础上还要努力奋斗直到成功。

为了便于用数学语言表达。我们把做生意坚持一年记为事件A，把做生意成功记为事件B，实际上我们要求的是事件A和B同时发生的概率，我们把它记为 $P(AB)$ 。

再看已知条件，有30%的可能坚持一年，说明 $P(A)=0.3$ , 如果坚持了一年就有60%的可能性成功，这句话可以理解为，当事件A已经发生的前提下，事件B发生的概率为0.6，我们用条件概率表示 $P(B|A)=0.6$

那么 $P(AB)$ 如何求呢。我们用大白话解释下。要想两个事件均满足，可以先满足一个，再在满足这个的前提下，满足另一个。也就是把两者相乘，写成数学公式就是：
${P(AB) = P(A) * P(B|A)}$

如果你觉得难以理解，我们可以用统计的思想帮助理解概率。假设我们克隆了10000个小明一起做这件事。根据 $P(A) = 0.3$ , 有3000个小明做生意坚持了一年，还有7000个被淘汰了。在这3000个小明中，又有 $3000 * P(B|A) = 3000 * 0.6 = 1800$ 个小明最终成功了。因此小明做生意成功的概率是 $1800/10000=0.18$ , 这个数值等于 $P(A)*P(B|A)$ 。

如此一来，我们就理解了条件概率公式。有了这个公式，我们不仅可以正着用还可以反着用。比如职业分析师小张发现有18%做生意的人能成功，有30%的人做生意能坚持一年。他就可以用条件概率公式推算出，在做生意坚持一年的条件下，有60%的可能性能成功。

又或者，工程师小亮想转行做生意，他考察了下市场得到两个数据：有18%的人做生意能成功，但只要坚持一年，就有60%的人做生意能成功。他可以立刻得出结论只有30%的人能坚持一年，而不是得出鸡汤式的结论“坚持就是胜利”。

这就是数学的魅力。

回到前面的公式，如果A和B是完全不相关的两个事情，那么这个公式会变得更简洁。比如我们把事件B改成了明天会下雨。很显然，不管你做生意能不能坚持一年，和明天是否下雨都毫无关系，用数学预言来表示，就是 $P(B|A) = P(B)$ ，进一步可以得到 $P(AB)=P(A)*P(B)$ , 我们把这样的事件A和B称之为独立事件。

接下来，我们让这个问题更复杂一些。

小明发现即使做生意坚持不到一年，积累的经验也有可能帮助自己成功，但是这时候概率会低一些，只有30%，小明现在想知道自己选择做生意，成功的概率是多少。

现在我们引入了做生意坚持不到一年这个事件，用字母C来表示该事件。很显然要么能坚持一年，要么坚持不到一年，也就是说事件A和事件C是互斥的， $P(C) = 1 - P(A) = 0.7$ 。而在坚持不到一年的条件下，最终成功的概率是 $0.3$ ，也就是说 $P(B|C) = 0.3$

现在我们要求小明成功的概率 $P(B)$ , 很自然的想法就是把坚持一年和坚持不到一年，这两个分支的成功概率相加。因为你无论通过哪个分支，都可以成功，他们是或的关系。见下图：

在做生意的前提下，有两条路径可以到达胜利的彼岸，当然应该把他们加起来计算。

那么这道题的答案应该就是：
$P(B)=P(A)*P(B|A) + P(C)*P(B|C) = 0.3 * 0.6 + 0.7 * 0.3 = 0.39$

再结合数学期望，就能更准确的帮助小明做出决策了。那么如果再多出来一个分支怎么处理呢。比如说小明找来了一个分析大师，对该问题分析的更加详细。
大师给出了坚持0-3个月，坚持3-12个月，坚持12-36个月，坚持36个月以上，这4种分支的成功概率。求小明成功的概率。

其实无非就是计算麻烦了点，方法上还是把不同的分支相加。那我们再抽象些，有N个分支，进入每个分支的概率分别是 $\upsilon_1$ , $\upsilon_2$ , ... , $\upsilon_n$ ，这时候就可以写出数学公式了。
$P(B) = \sum_{i}^{N} P(\upsilon_i) * P(B|\upsilon_i)$
这个公式叫做全概率公式。

看，这个公式使我们写出来的，而不是默出来的，如果平时你的思路很清晰，是不需要背诵那么多数学公式的。

然而，条件概率在生活中的应用还远不止上面提到的场景，我们再变换下。

假设一家媒体公司想收集100个做生意一年内失败，但最终走向成功的人，了解下他们的辛酸历程。然而他们手上只有若一堆成功者的联系方式。公司要排除记着从这一堆成功者理挑选出满足要求的人，他们大约需要走访多少人呢。
(有了条件概率数据，公司就知道应该安排多少记者，这对老板的决策有很大帮助)

为了解决这个问题，我们实际上是需要求P(C|B)，也就是在事件B发生的条件下，事件C发生的概率。用大白话来说，就是知道了结果，想求它属于哪个分支

如何求呢，显然我们可以用“该分支的概率” 除以 “所有分支的概率之和”，也就是：
$P(C|B) = \frac{P(BC)}{P(BC)+P(BA)}$
等式右边都和B有关，我们把它们都换成条件概率公式。
$P(C|B) = \frac{P(B|C)*P(C)}{P(B|C)*P(C)+P(B|A)*P(A)}$

把概率数据代入公式就可以求出答案了。那如果按照之前推导全概率公式的方式抽象，将问题分为N个分支，进入每个分支的概率分别是 $\upsilon_1$ , $\upsilon_2$ , ... , $\upsilon_N$ ，把C认为是其中一个分支 $\upsilon_t$ , 那么我们可以写出公式：
$P(\upsilon_t|B) = \frac{P(B|\upsilon_t)*P(\upsilon_t)}{\sum_{i}^{N} P(B|\upsilon_i) * P(\upsilon_i)}$

这就是大名鼎鼎的贝叶斯公式。

贝叶斯公式是一个非常有用的公式，而且往往能得出反直觉的结论。比如下面这个例子：

某市举办肝癌普查活动，已知肝癌的患病率是0.0004，仪器的准确率是99%。小王在普查中被查出阳性，请问小王患病的概率是多少？

分析一下这道题，可知一个人要么是肝癌患者，要么是健康人。这是两个分支。现在已知普查结果是阳性，那我们实际要求的是在普查结果为阳性的条件下，属于肝癌患者分支的概率是多少。
把属于肝癌患者记为事件A, 属于健康人记为事件B，检查结果为阳性记为事件C，利用贝叶斯公式，可得：
$P(A|C) = \frac{P(A) * P(C|A)}{P(A)*P(C|A)+P(B)*P(C|B)}$
带入数据， $P(A) = 0.0004$ , $P(B) = 1-0.0004=0.9996$ , $P(C|A) = 0.99$ , $P(C|B) = 0.01$ ,
可得：
$P(A|C) = \frac{0.0004* 0.99}{0.0004* 0.99+0.9996*0.01}\approx0.035$

也就是说，即便仪器准确率99%，即便你查出阳性，也不要担心，因为大概率是仪器错了，是不是有点匪夷所思，但这就是数学。
不过看了这篇文章的小伙伴可千万要搞清楚实际情况，这个肝癌问题的前提是患病概率是0.0004，如果你本身就抽烟喝酒，熬夜，再加上你出现了一定的临床症状，那概率可就远不止0.0004了，如果再查出阳性，你真正患病的概率可就很大了。