模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计

作者: 阿瑟_TJRS | 来源:发表于2019-10-19 16:31 被阅读0次

最大似然估计
模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计
最大似然估计与贝叶斯估计
最大似然估计和贝叶斯估计
最大似然估计 VS 贝叶斯估计
参数估计（二）最大似然估计
02 EM算法 - K-means算法回顾、EM概述
信息推断，最大似然估计，和贝叶斯估计
极大似然估计和贝叶斯估计
极大似然估计和贝叶斯估计

本笔记是笔者课程学习中所做笔记(绝对原创)，转载请附本文链接及作者信息。
有问题欢迎在交流区探讨学习，QQ：761322725
码字不易，好心人随手点个赞👍
个人认为课程所用PPT是对模式识别原理讲解最为透彻且容易理解的ppt
本文基础是贝叶斯决策https://www.jianshu.com/p/6f5273c09359
基础数理统计知识：概率分布、概率密度函数、贝叶斯公式https://blog.csdn.net/anshuai_aw1/article/details/82626468
贝叶斯决策知识 https://www.jianshu.com/p/6f5273c09359
背景：
实际分类中概率结构的完整信息很难获知，通常只知道总体分布的模糊信息和训练样本
- 需要利用训练样本 $\color{red}{估计先验概率和类条件概率密度}$
- 1.估计先验概率 $P(\hat{w_i})=\frac{N_i}{N}$ , $N_i$ 是训练集中N个样本中 $w_i$ 类的样本数量
- 2.估计样本中的类条件概率密度 参数估计即针对类条件概率密度进行估计，主要有两大类方法：

0. 基本概念

1.最大似然估计(Maximum-Likelihood Estimation,ML)

1.1基本假设

类条件概率密度 $𝒑(𝑿|𝝎_𝒋)$ 函数形式已知 , 参数未知但确定 , 记作 𝜽𝒋, 因此可以将 $𝒑(𝑿|𝝎_𝒋)$ 改写为 $𝒑(𝑿|𝝎_𝒋,𝜽_𝒋)$ 或 $𝒑(𝑿|𝜽_𝒋), j=1,2,…,c$ c为类别数量。
同时有以下重要性质：
每类样本集 $𝒟_𝑗$ 中的样本都是从密度为 $𝑝(𝑋|𝜔_𝑗)$ 的总体中独立抽出，即 $𝒟_𝑗$ 中的 $\color{red}{样本是独立同分布的}$ 。
各类样本只包含本类的分布信息，即不同类别的参数 $𝜽_𝒋$ 是各自独立的
在独立性假设下，可将原问题看作 c 个独立的问题。即，每一类
独立地按照概率密度 $𝒑(𝑿|𝜽)$ 抽取样本集 𝓓，用 𝓓估计出参数 𝜽 (分而治之)

将分类问题分解为各类的子问题后，我们来关注具体的参数 $\theta$ 的估计过程

1.2基本原理

𝒟={𝑿1,…,𝑿𝑛}，设各样本按条件概率密度 $𝑝(𝐱|𝜃)$ 从总体中独立抽取，有
$\color{red}{P(\mathit{D}|\theta)=p(\mathbf{X}_1,...,\mathbf{X}_n|\theta)=\prod_{k=1}^{n}p(\mathbf{X}_k|\theta)}$
我们将 $P(\mathit{D}|\theta)$ 称为参数 $\theta$ 对于样本集D的似然函数

所以最终的目的就是对似然函数求最大值，最大似然估计的方法也因此而来

1.3微分求解

当似然函数为可微函数，可以通过求导计算出最大值，得出估计值

注意：并不是所有似然函数都可微分！！！

1.4示例

2. 贝叶斯估计

2.1基本思想

贝叶斯估计方法与最大似然估计方法有本质不同，它把参数向量 θ 本身看成一个随机变量 ，根据观测数据对参数的分布进行估计，即后验概率密度 𝑝(𝜃|𝒟)。
贝叶斯学习，则是把贝叶斯估计的原理用于直接从数据对概率密度函数进行迭代估计。
原问题：估计概率密度。假设 $𝑝(𝐱|𝜃)$ 函数形式已知，参数𝜃未知且不固定；
目标：根据给定的样本集 𝓓={𝑋1,…,𝑋𝑛}，找到未知参数 𝜃的一个估计量，使得由此带来的风险最小。
因此贝叶斯估计将利用这一点对后验分布进行估计

2.2 贝叶斯估计

基本前提： $𝑝(𝐱|𝜃)$ 函数形式已知，参数𝜃未知且不固定；𝜽取值的参数空间 𝚯是一个连续空间
用类似于最小风险判决的方法来估计未知随机参数
$𝝀(\hat{\theta}|\theta)$ 标记真实参数为 𝜽, 得到的估计量为 $\hat{\theta}$ 时承担的损失。
𝜽的贝叶斯估计是使得贝叶斯风险最小化的估计 $\hat{𝜽}$ 。
最常用的损失函数为平方误差损失，根据该定理，就可以得到估计参数的方法：
具体的贝叶斯估计过程如下图所示：

2.3 贝叶斯学习

通过上一节对贝叶斯估计的过程的分析，可以知道贝叶斯估计为了得到最终的概率分布情况（估计概率密度），采用贝叶斯公式计算参数的后验概率，进行了问题的转换。
而贝叶斯学习，则不经过中间的参数估计步骤, $\color{red}{直接由样本集推断总体的概率分布}$

注意与的差别，前者表示数据分布情况的参数，后者则是数据具体的分布情况，得到后可以得到具体的数据分布函数，从而知道数据的分布情况即

具体求解过程

至此我们得到了可以用于贝叶斯学习的公式，参数学习的迭代过程如下：

随着n 值的增加， 𝜽的相应后验概率密度一般会变得越来越尖锐。
若上述概率密度函数序列在𝒏→∞时 , 收敛于以真值参数 𝜽为中心的狄拉克 𝜹函数，则称相应的学习过程为贝叶斯学习过程

上述式子中为样本集数据，可以看出贝叶斯学习实现了从样本到总体分布的推导学习

2.4 贝叶斯学习示例

注意上面的结果，先得到了参数的估计值，所以第一个图反映的是参数的情况，第二图才是概率密度的估计情况，贝叶斯学习的结果是在0到8间是均匀分布，而8到10存在其他分布，所以概率密度图中函数直线部分的值小于0.125(1/8)。

2.5 贝叶斯估计总结

主要的问题就是上述的两步：
1 计算参数后验密度函数
2 计算类条件密度
两类估计方法的差别

联系：最大似然估计可解释为具有均匀先验的最大后验概率估计。当训练样本数趋于无穷大时，两者效果一致。
贝叶斯估计方法有很强的理论和算法基础。但在实际应用中，最大似然估计更简便，且设计出的分类器的性能几乎与贝叶斯方法得到的结果相差无几。

2.6 参数估计方法总结

最大似然估计：将参数视为未知固定值， $\color{red}{参数点的估计}$
贝叶斯估计：将参数视为随机变量， $\color{red}{参数分布的估计}$

3. 无监督参数估计

3.1 问题

样本类别未知（无监督）情况下的类条件概密参数估计问题，被称为无监督参数估计
把参数估计方法推广到概率模型中含有隐变量如 样本的未知类别或允许样本存在缺失特征 的情况
问题描述：给定混合样本集 𝒟=𝑿1,𝑿2,⋯,𝑿𝒏，其类别数已知(c)， $\color{red}{样本的标签未知}$ 。每个类别的类条件概率密度 $𝑝(𝑿|𝜔_𝑖,𝜃_𝑖)$ 函数形式已知 , $𝑃(𝜔_𝑖)$ 未知。
目标：1) 估计各类的分布参数 $𝜃_𝑖$ 和类先验分布 $𝑃(𝜔_𝑖) i =1,…,c$ 。令 $𝜃=𝜃_1,⋯,𝜃_𝑐$ , $𝑃=(𝑃(𝜔_1),⋯,𝑃(𝜔_𝑐))$ $\Theta=(𝜃,𝑃)$
混合概率密度函数为 $\color{red}{p(X)=\sum^c_{i=1}p(X|w_i,\theta_i)P(w_i)}$

3.2 求解方法

混合概率密度函数的最大似然估计求法：
其中情况一：混合参数已知，方法同第1节中最大似然估计所述，差别在于这个地方是所有类在一起计算，没有分而治之
情况二：需要用条件极值法进行求解主要运用拉格朗日乘数方法进行推导求解原则上，可通过
（2）(3) 式联立求解得到参数的最大似然估计。但得到闭式解困难，通常通过迭代算法，如 EM 算法，进行求解。下面将学习EM算法

4. 最大期望算法(Expectation Maximization)

4.1 基本概念

解决在概率模型中含有无法观测的隐含变量情况下的参数估计问题。
场景：数据不完整，有缺失特征；存在隐变量，如样本的类别未知。
核心思想：根据已有的、不完整数据，利用对数似然函数期望迭
代地估计分布函数的未知参数
基本知识凸函数(Convex Functions)
詹森/琴生不等式(Jensen's inequality)
完全数据与不完全数据 利用不完全数据Y去获取完全数据的分布

4.2 EM原理

目标是极大化观测数据 Y 关于参数 𝜽的对数似然函数
image.png 通过迭代逐步近似极大化 $L(\theta)$ ,第i次迭代后 $\theta$ 的估计值为 $\theta^{(i)}$
EM算法是通过不断地使下界极大化，去逼近求解“对数似然函数极大化”
EM具体流程
注意点：
参数初值：EM算法对初值敏感
迭代终止条件：当Q函数值变化小于一定值或者参数估计值变化小于一定值

4.3 EM在无监督参数估计中的应用

第3节中提及的无监督参数估计（即混合模型的参数估计），在 $P(w_i)$ 未知的情况，如何求解，可以用EM算法完成：

完整的算法流程如下所示：

4.5 EM对高斯混合模型的估计

高斯混合模型的概念

5. 高斯混合模型EM参数估计实现

实现过程请见 https://www.jianshu.com/p/2da84659ba83

最大似然估计
0.参数估计参数估计分为：点估计区间估计点估计包含：矩估计法最大似然估计法（本章讲这里）最小二乘法贝叶斯估计法...
模式识别课程(二)-参数估计：最大似然估计和贝叶斯估计
目录 0. 前言 0. 基本概念 1. 最大似然估计(Maximum-Likelihood Estimation,...
最大似然估计与贝叶斯估计
参数估计是机器学习里面的一个重要主题，而极大似然估计是最传统、使用最广泛的估计方法之一。在讲最大似然估计和贝叶斯估...
最大似然估计和贝叶斯估计
几个基本概念：a. likelihood就是“似然”，可以理解为概率乘积。b. 判别函数：判断某个特征矢量属于哪个...
最大似然估计 VS 贝叶斯估计
https://www.zhihu.com/question/24124998/answer/883582430 ...
参数估计（二）最大似然估计
概率p(x|θ)是在已知参数θ的情况下，发生观测结果x可能性大小；似然性L(θ|x)是从观测结果x出发，分布系数...
02 EM算法 - K-means算法回顾、EM概述
01 EM算法 - 大纲 - 最大似然估计(MLE)、贝叶斯算法估计、最大后验概率估计(MAP) K-means算...
信息推断，最大似然估计，和贝叶斯估计
一. 信息推断我们经常会遇到一类问题：我们需要根据观察到的某个或多个现象推测出现象背后的原因或根源。例如古人的`...
极大似然估计和贝叶斯估计
极大似然估计和贝叶斯估计是两种估计模型参数的方法。分别代表了两种学派的思想。极大似然估计是概率学派的观点，其认为...
极大似然估计和贝叶斯估计
'参数估计'学习总结最大似然估计回顾一下贝叶斯定理似然函数最大似然估计就是要用似然函数取到最大值时的参数值...