模式识别与机器学习(二)——概率论基础、频率派与贝叶斯派

作者: Ice_spring | 来源:发表于2020-08-10 16:53 被阅读0次

模式识别与机器学习(二)——概率论基础、频率派与贝叶斯派
频率学派与贝叶斯学派
绪论|机器学习推导系列（一）
绪论-资料介绍
机器学习40讲
频率派 vs 贝叶斯派
2019-07-01
烧脑的贝叶斯
线性回归和逻辑回归的区别
朴素贝叶斯

1.2上概率论基础

概率论是整个模式识别与机器学习的基础，本节对应PRML书1.2节的概率部分，以后不再单独说明。

求和法则与乘法法则

假设有两个离散随机变量 $X$ 和 $Y$ ， $X$ 的取值范围为 $x_i,(i=1,2,...,M)$ ， $Y$ 的取值范围为 $y_j,(j=1,2,...,L)$ 。我们考虑在 $N$ 次实验中同时对 $X$ 和 $Y$ 进行采样，设 $n_{ij}$ 表示 $X=x_i$ 且 $Y=y_j$ 发生的次数， $c_i$ 表示 $X=x_i$ 发生的次数（不管 $Y$ 取值多少）， $r_j$ 表示 $Y=y_j$ 发生的次数。

概率基础

那么根据频率学派的观点， $X=x_i$ 且 $Y=y_j$ 发生的概率，即二者的联合概率（joint probability）定义为点 $(X,Y)$ 落在单元 $(i, j)$ 的次数占总实验次数的比例：
$p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}$
这里我们默认 $N\to \infty$ 。类似地， $X=x_i$ 的概率 $p(X=x_i)$ 由如下公式给出：
$p(X=x_i)=\frac{c_i}{N}$
注意到 $c_i=\sum_{j=1}^L n_{ij}$ ，由此我们可以得到概率论中的求和法则（sum rule）：
$p(X=x_i)=\frac{c_i}{N}=\sum_{j=1}^L \frac{n_{ij}}{N}=\sum_{j=1}^L p(X=x_i, Y=y_j)$
如果我们只考虑 $X=x_i$ 的样例中 $Y=y_j$ 样本所占的比例，记为 $p(Y=y_j|X=x_i)$ ，也被称为给定 $X=x_i$ 情况下 $Y=y_j$ 的条件概率，则该条件概率可以由落在单元 $(i, j)$ 内的点的个数与落在第 $i$ 列的点的总数的比值给出：
$p(Y=y_j|X=x_i)=\frac{n_{ij}}{c_i}$
在定义了条件概率之后，我们回过头来看联合概率，可以发现：
$p(X=x_i, Y=y_j)=\frac{n_{ij}}{N}=\frac{n_{ij}}{c_i}\cdot \frac{c_i}{N}=p(Y=y_j|X=x_i)p(X=x_i)$
上述公式即为概率论中的乘法法则（product rule）。

为了表述方便，我们将 $X,Y$ 的具体取值省略，将两个法则写为：

$\begin{aligned}\textbf{sum rule}\quad\quad &p(X)=\sum\limits_{Y}p(X,Y)\\\textbf{product rule}\quad\quad &p(X, Y)=p(Y|X) p(X)\end{aligned}$

这两个简单的规则组成了全书中使⽤的全部概率推导的基础。

贝叶斯公式

根据乘法法则以及联合概率的对称性（ $p(X,Y)=p(Y,X)$ ）可得：
$p(Y|X)p(X)=p(X|Y)p(Y)$
上式又可以改写为
$p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}$
这个公式就是概率论中的贝叶斯公式（Bayes' theorem），它在机器学习和模式识别中发挥着至关重要的作用。其中 $p(Y|X)$ 称为后验概率（posterior probability）， $p(X|Y)$ 称为似然函数（likelihood function）， $p(Y)$ 称为先验概率（prior probability）, $p(X)$ 称为归一化因子（normalize factor）。根据加法公式我们可以把分母用分子中的似然函数和先验概率来表示：
$p(X)=\sum_{Y}p(X|Y)p(Y)$
如果联合概率可以分解为各自边缘概率的乘积，即 $p(X, Y)=p(X)p(Y)$ ，则我们说 $X$ 和 $Y$ 彼此独立，并且有 $p(Y|X)=p(Y)$ ，也就是说给定 $X$ 情况下 $Y$ 的分布与 $X$ 的取值无关。

概率密度

我们可以把概率的定义从离散的情况推广到连续的情形，在这种背景下，我们引入概率密度函数（probability density） $p(x)$ 来描述连续随机变量 $X$ 的概率分布。

概率密度 当 $\delta x\to 0$ 时，如果 $X$ 落在区间 $(x,x+\delta x)$ 的概率等于 $p(x)\delta x$ ，即
$\lim_{\delta x\to 0} p\big(X\in(x,x+\delta x)\big)=p(x)\delta x$
则称 $p(x)$ 为 $X$ 的概率密度函数

注意到当 $\delta x\to 0$ 时， $p(x)\delta x$ 可以视为图中阴影部分的面积:

连续型

那么 $X$ 落在区间 $(a,b)$ 内的概率 $p(X\in(a,b))$ 就是 $p(x)$ 在区间 $(a,b)$ 内的面积，我们可以用概率密度的积分来表示它：
$p(X\in(a,b))=\int_a^b p(x)dx$
此外，考虑到概率的性质，概率密度也必须满足：

$p(x)\geq 0\\ \int_{-\infty}^{\infty} p(x)dx=1$

利用密度函数在一个区间上的积分等于随机变量落在这个区间上的概率这一性质，我们可以定义累积密度函数（cdf）：
$P(z)=\int_{-\infty}^z p(x) dx$

$P(z)$ 表示 $X$ 处于 $(-\infty, z)$ 之间的概率，且满足 $P'(x)=p(x)$

假设我们知道 $x$ 的概率密度为 $f_X(x)$ ，如果我们对 $x$ 做一个非线性变换 $y=g(x)$ ，那么我们可以用如下公式计算 $y$ 的概率密度 $f_Y(y)$ ：
$f_Y(y)=f_X(g^{-1}(y))\bigg|\frac{d }{dy}g^{-1}(y)\bigg|$

这个公式称为变元公式（change of a variable），证明过程如下：
首先将 $P(X\leq x)$ 简记为 $P_X(x)$ ，将 $P(Y\leq y)$ 简记为 $P_Y(y)$ 。因为概率密度是分布函数的导数，根据定义我们有
$\begin{aligned}f_Y(y)&=\frac{d}{dy}P_Y(y)=\frac{d}{dy}P(g(X)\leq y)\\&=\frac{d}{dx}P_X(g^{-1}(y))\bigg|\frac{dx}{dy}\bigg|\\&=f_X(g^{-1}(y))\bigg|\frac{d}{dy}g^{-1}(y)\bigg|\end{aligned}$
同样地，我们可以将加法公式、乘法公式和贝叶斯公式推广到连续随机变量上：

$\begin{aligned}\textbf{sum rule}\quad\quad &p(x)=\int p(x,y) dy\\\textbf{product rule}\quad\quad &p(x, y)=p(y|x) p(x)\\\textbf{Bayes' rule}\quad\quad &p(y|x)=\frac{p(x|y) p(y)}{\int_Y p(x|y) p(y) dy}\end{aligned}$

期望和协方差

函数 $f(x)$ 在概率密度 $p(x)$ 下的加权平均称为 $f(x)$ 的期望（expectation），当 $X$ 为离散随机变量时期望定义为
$\mathbb{E}[f]=\sum_x p(x) f(x)$

当 $X$ 为连续随机变量时期望定义为
$\mathbb{E}[f]=\int p(x)f(x) dx$
给定 $N$ 个从分布 $p(x)$ 抽样得到的样本 $x_1, x_2, ...,x_N$ ，我们可以用如下公式近似估计期望：
$\frac{1}{N}\sum_{n=1}^N f(x_n)\approx \mathbb{E}[f]$
当 $N\to\infty$ 时，上式的估计会变的精确。
有时我们希望计算多元函数关于某个变量的期望，我们用下标指定要求期望的变量：
$E_x[f(x,y)]=\int f(x,y)p(x)dx$

条件期望（conditional expectation）定义为
$E_x[f|y]=\int p(x|y)f(x)dx$
函数 $f(x)$ 的方差定义为
$var[f]=\mathbb{E}\big[(f(x)-\mathbb{E}[f(x)])^2\big]$
经过一番计算，方差可以简化为
$var[f]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2$

随机变量 $x$ 和 $y$ 的协方差（covariance）定义为
$cov[x,y]=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}=\mathbb{E}_{x,y}[xy]-\mathbb{E}[x]\mathbb{E}[y]$

随机向量 $\mathbf{x}$ 和 $\mathbf{y}$ 的协方差（covariance）定义为
$cov[\mathbf{x}, \mathbf{y}]=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\{\mathbf{y}^\top-\mathbb{E}[\mathbf{y}^\top]\}=\mathbb{E}_{\mathbf{x},\mathbf{y}}[\mathbf{x}\mathbf{y}^\top]-\mathbb{E}[\mathbf{x}]\mathbb{E}[\mathbf{y}^\top]$

贝叶斯概率

本章⽬前为⽌，我们根据随机重复事件的频率来考察概率。我们把这个叫做经典的（classical）或者频率学家（frequentist）的关于概率的观点，简称频率派。现在我们转向更加通⽤的贝叶斯派（Bayesian）观点。这种观点中，提供了不确定性的⼀个定量化描述。考虑以下问题：

2050年南极冰川是否会全部融化？

因为我们无法对其进行观测和实验，这就导致了该事件的概率是未定义的。贝叶斯统计学则为我们提供了一种完全不同的视角来看待这个问题。贝叶斯派认为概率是一种不确定性的度量，是人对于某个不确定事件是否会发生的置信度。贝叶斯的主要思路是通过不断收集证据来修正人对某件事的主观认识，比如我们可以通过观察南极冰川融化的速度来量化其不确定性，从而决定是否要减少温室气体的排放。在这样的情况下，我们可能希望能够定量地描述不确定性，并且根据少量新的证据对不确定性进⾏精确的修改，对接下来将要采取的动作进⾏修改，或者对最终的决策进⾏修改。这可以通过⼀种优雅的通⽤的贝叶斯概率观点来实现。

考虑上一节介绍的曲线拟合的例子，对于观察到的变量 $t_n$ 这⼀随机值的概率，频率派的观点似乎是很合理的。然⽽，我们想针对模型参数 $w$ 的合适选择进⾏强调和定量化。我们将会看到，从贝叶斯的观点来看，我们能够使⽤概率论来描述模型参数的不确定性，或者模型本⾝的选择。获得观测样本前我们对于模型参数 $\mathbf{w}$ 的假设以先验分布 $p(\mathbf{w})$ 的形式表达，采集到的观测数据 $\mathcal{D}=\{(x_1,t_1),...,(x_N, t_N)\}$ 通过似然函数 $p(\mathcal{D}|\mathbf{w})$ 发挥作用，注意到它是关于 $\mathcal{D}$ （已知）的分布，因此它是关于 $\mathbf{w}$ 的函数，反映了在不同的模型参数 $\mathbf{w}$ 下产生该组观测值的可能性。通过似然函数，我们将关于 $\mathbf{w}$ 的置信度转变为了后验概率分布 $p(\mathbf{w}|\mathcal{D})$ 的形式，它让我们能够通过后验概率 $p(\mathbf{w}|\mathcal{D})$ 在获得观测数据 $\mathcal{D}$ 后估计 $\mathbf{w}$ 的不确定性(对于先验 $p(\mathbf{w})$ 的修正)。具体地，依据贝叶斯公式有：
$p(\mathbf{w}|\mathcal{D})=\frac{p(\mathcal{D}|\mathbf{w})p(\mathbf{w})}{p(\mathcal{D})}$

注意到 $p(\mathcal{D})$ 只是个定值，起到归一化作用，我们可以将其用先验和似然的乘积关于 $\mathbf{w}$ 的积分表示出来
$p(\mathcal{D})=\int p(\mathcal{D}|\mathbf{w})p(\mathbf{w})d\mathbf{w}$
如果忽略 $p(\mathcal{D})$ ，我们可以将先验、似然、后验之间的关系表达为如下的形式：
$posterior \propto likelihood \times prior$
其中 $\propto$ 表示正比符号，三个量都可以视为 $\mathbf{w}$ 的函数。

贝叶斯观点的⼀个优点是对先验概率的包含是很⾃然的事情。例如，假定投掷⼀枚普通的硬币3次，每次都是正⾯朝上。⼀个经典的最⼤似然模型在估计硬币正⾯朝上的概率时，结果会是1，表示所有未来的投掷都会是正⾯朝上！相反，⼀个带有任意的合理的先验的贝叶斯⽅法将不会得出这么极端的结论。

频率派VS贝叶斯派

无论是频率派还是贝叶斯派，似然函数都起着重要的作用，然而对似然函数使用方式的不同是两者最本质的区别。以上一节介绍的曲线拟合为例，频率派认为参数 $\mathbf{w}$ 是固定的，我们通过最大化似然函数的思想利用观测数据去反推这个参数值 $\mathbf{w}$ 。这对应于选择使观察到的数据集出现概率最⼤的参数值。在机器学习的⽂献中，似然函数的负对数被叫做误差函数（error function）。由于负对数是单调递减的函数，最⼤化似然函数等价于最⼩化误差函数。

而贝叶斯派则认为我们只有一个数据集 $\mathcal{D}$ （即实际观测到的数据集），模型参数 $\mathbf{w}$ 是随机的，我们通过似然函数将先验修改为后验。

针对贝叶斯⽅法的⼀种⼴泛的批评就是先验概率的选择通常是为了计算的⽅便而不是为了反映出任何先验的知识。某些⼈甚⾄把贝叶斯观点中结论对于先验选择的依赖性的本质看成困难的来源。特殊情况下，如果把先验去掉或者先验是uniform distribution，则贝叶斯方法等价于频率方法。

模式识别与机器学习(二)——概率论基础、频率派与贝叶斯派
1.2上概率论基础概率论是整个模式识别与机器学习的基础，本节对应PRML书1.2节的概率部分，以后不再单独说明...
频率学派与贝叶斯学派
序本次记录频率学派的主要思想与贝叶斯的区别，并给出贝叶斯公式频率学派与贝叶斯学派的差别频率派把需要推断的参数...
绪论|机器学习推导系列（一）
一、频率派 vs 贝叶斯派机器学习主要解决从数据中获取其概率分布的问题，通过一些机器学习的算法可以从大量数据中找...
绪论-资料介绍
频率派->统计机器学习贝叶斯派-> 概率图模型 Book 李航统计学习方法 => 感K朴决罗，支提E隐条周志华...
机器学习40讲
机器学习概观 (10讲) 01 | 频率视角下的机器学习 02 | 贝叶斯视角下的机器学习 03 | 学什么与怎么...
频率派 vs 贝叶斯派
对于有 n 个样本的样本集以及参数，那么有服从概率分布 [https://github.com/son...
2019-07-01
第一节作业机器学习题目：说明最大似然派&贝叶斯派、判别模型&生成模型、浅层学习&深层学习、显变量学习&隐变量学...
烧脑的贝叶斯
概率派和朴素贝叶斯派概率推动概率论概率相比大家都学习过，但是大家可能还不知道概率背后是可重复性。我们还是拿最...
线性回归和逻辑回归的区别
更多面试题---------------------- 基础概念逻辑回归与朴素贝叶斯有什么区别机器学习学习方式...
朴素贝叶斯
概率论是许多机器学习算法的基础。贝叶斯算法是一类算法，这是一类以条件概率的计算为核心进行分类的算法，而朴素贝叶斯算...