机器学习(概率论)：贝叶斯定理

作者: 星光下的胖子 | 来源:发表于2020-05-28 08:04 被阅读0次

机器学习(概率论)：贝叶斯定理
机器学习简介及常用算法
浅谈运营工作中的贝叶斯陷阱
机器学习算法集锦
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
机器学习算法集锦
【拥抱AI】人工智能算法——初识机器学习，深度学习
机器学习知识体系

一、概率介绍

在介绍贝叶斯公式之前，我们先了解下一些概念：

1）条件概率、联合概率、边缘概率
2）全概率公式
3）先验概率、似然函数、后验概率

条件概率、联合概率、边缘概率

条件概率：事件B发生的情况下，事件A发生的概率，即P(A=a|B=b)，记作 P(A|B)。
联合概率：在多元概率分布中，多个条件同时成立的概率，即P(X=a, Y=b)，记作P(AB)。
边缘概率：与联合概率对应的，单个随机变量的概率，即P(X=a)或P(Y=b)，记作P(A)。

条件概率、联合概率、边缘概率的关系如下：

由 $P(A|B)=\frac{P(AB)}{P(B)},P(B|A)=\frac{P(BA)}{P(A)},P(AB)=P(BA)$ 得到推导式：
$P(AB)=P(A|B)P(B)=P(B|A)P(A)$
公式变形：
$P(B|A)=\frac{P(A|B)P(B)}{P(A)}$

全概率公式

划分

设 $S$ 为试验 $E$ 的样本空间， $B_1,B_2,...,B_n$ 为 $E$ 的一组事件，若
$1）B_iB_j=∅, i≠j(i,j=1,2,...,n);$
$2）B_1∪B_2∪...∪B_n=S,$
则称 $B_1,B_2,...,B_n$ 为样本空间 $S$ 的一个划分。

全概率公式

设试验 $E$ 的样本空间为 $S$ ， $A$ 为 $E$ 的事件， $B_1,B_2,...,B_n$ 为 $S$ 的一个划分，且 $P(B_i)>0(i=1,2,...,n)$ ，则
$P(A)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)+...+P(A|B_n)P(B_n)=\sum_{i=1}^nP(A|B_i)P(B_i)$
称为全概率公式。

先验概率、似然函数、后验概率

先验概率：一个事情发生前我们大概知道这件事情发生的概率。它一般是根据以往经验和分析得到的概率。
似然函数：给定输出x时，关于参数θ的似然函数L(θ|x)（在数值上）等于给定参数θ后变量X的概率：L(θ|x)=P(X=x|θ)。
后验概率：当某个与之关联的事情发生后，我们去重新定义这个事情发生的概率。后验概率的计算要以先验概率为基础，在贝叶斯公式中，用先验概率和似然函数计算出来。

举一个简单的例子：一口袋里有3只红球、2只白球，采用不放回方式摸取，求：
⑴ 第一次摸到红球（记作A）的概率；
⑵ 第二次摸到红球（记作B）的概率；
⑶ 已知第二次摸到了红球，求第一次摸到的是红球的概率。
解：
⑴ P(A)=3/5，这就是先验概率；
⑵ P(B)=P(A)P(B|A)+P(A逆)P(B|A逆)=3/5
⑶ P(A|B)=P(A)P(B|A)/P(B)=1/2，这就是后验概率。
上例中，同样是求"第一次摸到红球的概率"，⑴ 是先验概率，而⑶是在"第二次摸到红球"的条件下求"第一次摸到红球的概率"，⑶是后验概率。

二、贝叶斯定理

由条件概率的推导式和全概率公式可推导出贝叶斯公式：
$P(B_i|A)=\frac{P(A|B_i)P(B_i)}{P(A)}=\frac{P(A|B_i)P(B_i)}{\sum_{i=1}^nP(A|B_i)P(B_i)},i=1,2,...,n.$
贝叶斯公式的条件： $B_1,B_2,...,B_n$ 为 $S$ 的一个划分，或说 $B$ 事件为完备事件。

在贝叶斯法则中，每个名词都有约定俗成的名称：

贝叶斯公式.png

当分析样本大到接近总体样本时，样本中事件发生的概率将接近于总体中事件发生的概率。贝叶斯公式为利用搜集到的信息对原有信息进行修正提供了有效手段。在采样之前，经济主体对各种假设有一个判断(先验概率)，关于先验概率的分布，通常可根据经济主体的经验判断确定，较复杂精确的可利用最大熵技术、边际分布密度、相互信息原理等方法来确定先验概率分布。

贝叶斯方法的举例分析

挑战者M不知道原垄断者N属于高阻挠成本还是低阻挠成本类型，但M知道，如果N属于高阻挠成本类型，M进入市场时N进行阻挠的概率是20%(此时N为了保持垄断带来的高利润，不计成本地拼命阻挠)；如果N属于低阻挠类型，M进入市场时N进行阻挠的概率是100%。
假设博弈开始M认为N属于高阻挠成本企业的概率为70%(先验概率)，请问：
1）M估计自己进入市场时，受到N阻挠的概率？
2）当M进入市场时，N确实进行阻挠。那么M重新估计自己进入市场时，受到N阻挠的概率？
3）如果M再一次进入市场时，N又进行了阻挠。那么M重新估计自己进入市场时，受到N阻挠的概率？
解：记“M认为N为高阻挠”为事件A，"B进入市场时，受到A阻挠"为事件B，则有P(B) = P(A)×0.2 + (1-P(A))×1。
1）先验概率P(A) = 0.7
P(B) = P(A)×0.2 + (1-P(A))×1=0.7×0.2 + 0.3×1=0.44
2）当M进入市场时，N确实进行阻挠。
P(A|B)=P(B|A)P(A)/P(B)=0.2×0.7÷0.44=0.32
P(A')=P(A|B)=0.32
P(B')=P(A')×0.2 + (1-P(A'))×1=0.32×0.2 + 0.68×1=0.744
3）如果M再一次进入市场，N又进行了阻挠。
P(A'|B')=P(B'|A')P(A')/P(B')=0.2×0.32÷0.744=0.086
P(A'')=P(A'|B')=0.086
P(B'')=P(A'')×0.2 + (1-P(A''))×1=0.086×0.2 + 0.914×1=0.9312
这样，根据N一次又一次的阻挠行为，M对N所属类型的判断逐步发生变化，越来越倾向于将N判断为低阻挠成本企业了。

由上例表明，在不完全信息动态博弈中，我们可以利用贝叶斯公式对原有判断进行修改更新。

三、朴素贝叶斯

朴素贝叶斯方法是贝叶斯算法的简化，它以贝叶斯定理为基础，并且假设特征条件之间相互独立。先通过已给定的训练集，以特征词之间独立作为前提假设，学习从输入到输出的联合概率分布，再基于学习到的模型，输入 $X$ 求出使得后验概率最大的输出 $Y$ 。

设有样本数据集 $D=$ { $d_1,d_2,...,d_n$ }，对应样本数据的特征属性集为 $X=$ { $x_1,x_2,...,x_d$ }，类变量为 $Y=$ { $y_1,y_2,...,y_n$ }，即 $D$ 可以分为 $y_1$ ~ $y_m$ 类。其中特征属性集 $x_1,x_2,...,x_d$ 相互独立且随机，则 $Y$ 的先验概率 $P_{prior}=P(Y)$ ， $Y$ 的后验概率 $P_{post}=P(Y|X)$ ，由朴素贝叶斯算法可得，后验概率可以由先验概率 $P_{prior}=P(Y)$ 、证据 $P(X)$ 、类条件概率 $P(X|Y)$ 计算出：
$P(Y|X)=\frac{P(Y)P(X|Y)}{P(X)}$
朴素贝叶斯基于各特征之间相互独立，在给定类别为 $y$ 的情况下，有：
$P(X|Y=y)=\prod_{i=1}^d P(x_i|Y=y)$
由以上两式可以计算出后验概率为：
$P_{post}=P(Y|X)=\frac{P(Y)\prod_{i=1}^dP(x_i|Y)}{P(X)}$
由于 $P(X)$ 的大小是固定不变的，因此在比较后验概率时，只比较上式的分子部分即可。因此可以得到一个样本数据属于类别 $y_i$ 的朴素贝叶斯计算如下所示：
$P(y_i|x_1,x_2,...,x_d)=\frac{P(y_i)\prod_{j=1}^d P(x_j|y_i)}{\prod_{j=1}^dP(x_j)}$

朴素贝叶斯的优缺点：

优点：①由于假设了数据集属性之间是相互独立的，因此算法的逻辑性十分简单。②朴素贝叶斯对于不同类型的数据集不会呈现太大的差异性，健壮性比较好。③当数据集属性之间的关系相对比较独立时，朴素贝叶斯算法有较好的分类效果。
缺点：假设属性独立性的条件也是朴素贝叶斯的不足之处。数据集之间往往都存在着相互关联，如果数据集间关联紧密，那么分类效果就会大大降低。

机器学习(概率论)：贝叶斯定理
一、概率介绍在介绍贝叶斯公式之前，我们先了解下一些概念： 1）条件概率、联合概率、边缘概率 2）全概率公式 3）...
机器学习简介及常用算法
概念什么是机器学习？机器学习是英文名称Machine Learning(简称ML)的直译。机器学习涉及概率论、统...
浅谈运营工作中的贝叶斯陷阱
贝叶斯定理广泛应用于各类场景，如机器学习、大数据挖掘、工程分析、金融投资等，本文仅探讨贝叶斯定理在运营数据分析中的...
机器学习算法集锦
摘要：机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、...
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
贝叶斯定理太有用了，不管是在投资领域，还是机器学习，或是日常生活中高手几乎都在用到它。生命科学家用贝叶斯定理研究...
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
贝叶斯定理太有用了，不管是在投资领域，还是机器学习，或是日常生活中几乎都在用到它。例如，生命科学家用贝叶斯定理研...
怎样用非数学语言讲解贝叶斯定理（Bayes's theorem）
贝叶斯定理太有用了，不管是在投资领域，还是机器学习，或是日常生活中几乎都在用到它。例如，生命科学家用贝叶斯定理研...
机器学习算法集锦
摘要：机器学习机器学习(Machine Learning, ML)是一门多领域交叉学科，涉及概率论、统计学、逼...
【拥抱AI】人工智能算法——初识机器学习，深度学习
一、机器学习机器学习(MachineLearning, ML)是一门涉及概率论、统计学、逼近论等领域的交叉学科，...
机器学习知识体系
1.什么是机器学习机器学习（Machine Learning, ML）是一门多领域交叉学科，涉及概率论、统计学、...