熵最大模型

作者: HelloShane | 来源:发表于2018-01-15 23:23 被阅读0次

最大熵模型详细解析 | 统计学习方法学习笔记 | 数据分析 |
熵
逻辑斯谛回归与最大熵模型
逻辑斯谛回归与最大熵模型
最大熵模型
Day 2080：学习
改进的迭代尺度法(IIS)详细解析 | 统计学习方法学习笔记 |
最大熵模型
最大熵模型
统计学习方法7.3 - 7.4笔记

第八章熵最大模型

[TOC]

1.概念介绍

1.1 熵的定义

文中H表示离散熵，h表示连续熵

1.1.1 信息量

[图片上传失败...(image-b0bdc5-1516029725034)]

信息量是描述事件发生概率和信息量的关系：概率越小的，信息量越大。

1.1.2 熵

事件和信息量相乘，然后求和，描述事件的杂乱程度。也相当于求Log(p(x))的期望

1. 离散熵

随机变量用于描述分类等离散事件的，计算方式是使用数据集里面类别的概率和log概率相乘求和。

-c400

当p(x) = 1/(2N -1 )时H(x)最大

2. 微分熵

用于连续变量的信息熵计算。

-c400

2.1 微分熵的性质

-c400

2.2 微分熵在概率取正态分布的时候最大。

对于一个微分熵：我们可以写出其等式，但是由于其又是个概率模型，所以还包含了很多约束条件。比如概率不小于0，概率和为1，如果同时知道了其常用的统计量，比如方差均值等，那么又会有统计量的约束条件，总体归结为：

-c400

那么求其最大熵，用拉格朗日：

-c400

其中求偏导这一过程，是要先做积分兑换

$$\int_{0}^{1} x \ d[(-p_x(x)logp_x(x) + \lambda_0px(x) + \sum_{i=1}^m\lambda_ig_i(x))]$$

然后求导得到一个带x的式子，但是与x为0无意义，所以舍去。

当已知方差和均值的时候，正态分布的熵最大

证明过程是吧上面的约束条件

-c300

替换成方差求法，然后重新拉格朗日。

-c300

证明如下

[图片上传失败...(image-2d7d66-1516029725034)]

[图片上传失败...(image-56e71-1516029725034)]

3. 互信息

互信息描述的是两个变量之间关系的大小，其计算方法：

这里给出离散的证明，连续的不给予证明。

3.1. 条件熵

-c500

3.2 联合熵

-c500

3.3 互信息（MI）

定义：信息熵和条件熵的差，也叫信息增益。

$$MI(Y|X) = H(Y) - H(Y|X)$$

其实就是决策树中C3.5里面用的信息增益。

互信息在离散熵和微分熵的表达方式是不同，但是最后的意义一样。

[图片上传失败...(image-98675e-1516029725034)]

[图片上传失败...(image-59a3b5-1516029725034)]

由I(X;Y) = h(X) - h(X|Y) = 积分项，是怎么得到的就不证明了。

3.4 相对熵

定义：相对熵是衡量两个分布的平均信息差异的。

-c400

具有对称性

互信息是一种相对熵

[图片上传失败...(image-61b2a3-1516029725034)]

4. 最大熵模型

重点是：我们如何使用最大熵呢？这里使用的一个思路是：挑选出所有的特征函数，求得满足所有特征函数的一个模型集合，挑选使得熵最大的模型

中心极限定理：中心极限定理说明，在适当的条件下，大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础，指出了大量随机变量之和近似服从正态分布的条件。

那么我们由中心极限定理知道，数据真正的分布式正态分布，由上面介绍的微分熵的模型，当知道数据的均值和方差的时候正态分布熵最大。根据微分熵最大熵等价于正态分布可知：一般认为熵最大的模型是最好的模型

-c500

定义约束函数：为了使分类准确，我们往往要对样例提部分特征，而对于不同特征，就可以产生不同的约束，定义为f。

c300

举例来说

[图片上传失败...(image-345b37-1516029725034)]

[图片上传失败...(image-bb5a44-1516029725034)]

直观上看，这些特征是需要手工去挑选的，但也可以自动选择，比如决策树里面使用到的特征选择，就是利用信息增益挑选的一个阈值。这样看来决策树也和最大熵有关呢。

求使得熵最大的模型，这就跟决策树的思想类似，我们挑选出多颗决策树，也就相当于求出了很多的特征函数，求一个最大熵的决策树，作为最好的模型，我想起的决策树和最大熵之间的联系就是这个特征函数，但是决策树求得是一个熵最小的模型，但是由于熵最小的模型又容易过拟合。这里要注意的是：决策树生成的过程虽然利用的熵最小模型，但是这个是在找特征函数，而不是最后优化过程，最后的剪枝过程才是最大熵的过程。

首先考虑经验分布