美文网首页
熵最大模型

熵最大模型

作者: HelloShane | 来源:发表于2018-01-15 23:23 被阅读0次

第八章 熵最大模型

[TOC]

1.概念介绍

1.1 熵的定义

文中H表示离散熵,h表示连续熵

1.1.1 信息量

[图片上传失败...(image-b0bdc5-1516029725034)]

信息量是描述事件发生概率和信息量的关系:概率越小的,信息量越大。

1.1.2 熵

事件和信息量相乘,然后求和,描述事件的杂乱程度。也相当于求Log(p(x))的期望

1. 离散熵

随机变量用于描述分类等离散事件的,计算方式是使用数据集里面类别的概率和log概率相乘求和。

-c400

当p(x) = 1/(2N -1 )时H(x)最大

2. 微分熵

用于连续变量的信息熵计算。

-c400 -c400

2.1 微分熵的性质

-c400

2.2 微分熵在概率取正态分布的时候最大。

对于一个微分熵:我们可以写出其等式,但是由于其又是个概率模型,所以还包含了很多约束条件。比如概率不小于0,概率和为1,如果同时知道了其常用的统计量,比如方差均值等,那么又会有统计量的约束条件,总体归结为:

-c400 -c400

那么求其最大熵,用拉格朗日:

-c400

其中求偏导这一过程,是要先做积分兑换

$$\int_{0}^{1} x \ d[(-p_x(x)logp_x(x) + \lambda_0px(x) + \sum_{i=1}^m\lambda_ig_i(x))]$$

然后求导得到一个带x的式子,但是与x为0无意义,所以舍去。

当已知方差和均值的时候,正态分布的熵最大

证明过程是吧上面的约束条件 -c300

替换成方差求法,然后重新拉格朗日。

-c300

证明如下

[图片上传失败...(image-2d7d66-1516029725034)]

[图片上传失败...(image-56e71-1516029725034)]

3. 互信息

互信息描述的是两个变量之间关系的大小,其计算方法:

这里给出离散的证明,连续的不给予证明。

3.1. 条件熵

-c500

3.2 联合熵

-c500

3.3 互信息(MI)

定义:信息熵和条件熵的差,也叫信息增益。

$$MI(Y|X) = H(Y) - H(Y|X)$$

其实就是决策树中C3.5里面用的信息增益。

互信息在离散熵和微分熵的表达方式是不同,但是最后的意义一样。

[图片上传失败...(image-98675e-1516029725034)]

[图片上传失败...(image-59a3b5-1516029725034)]

由I(X;Y) = h(X) - h(X|Y) = 积分项,是怎么得到的就不证明了。

3.4 相对熵

定义:相对熵是衡量两个分布的平均信息差异的。

-c400

具有对称性

互信息是一种相对熵

[图片上传失败...(image-61b2a3-1516029725034)]

4. 最大熵模型

重点是:我们如何使用最大熵呢?这里使用的一个思路是:挑选出所有的特征函数,求得满足所有特征函数的一个模型集合,挑选使得熵最大的模型

中心极限定理:中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。

那么我们由中心极限定理知道,数据真正的分布式正态分布,由上面介绍的微分熵的模型,当知道数据的均值和方差的时候正态分布熵最大。根据微分熵最大熵等价于正态分布可知:一般认为熵最大的模型是最好的模型

-c500

定义约束函数:为了使分类准确,我们往往要对样例提部分特征,而对于不同特征,就可以产生不同的约束,定义为f。

c300

举例来说

[图片上传失败...(image-345b37-1516029725034)]

[图片上传失败...(image-bb5a44-1516029725034)]

直观上看,这些特征是需要手工去挑选的,但也可以自动选择,比如决策树里面使用到的特征选择,就是利用信息增益挑选的一个阈值。这样看来决策树也和最大熵有关呢。

求使得熵最大的模型,这就跟决策树的思想类似,我们挑选出多颗决策树,也就相当于求出了很多的特征函数,求一个最大熵的决策树,作为最好的模型,我想起的决策树和最大熵之间的联系就是这个特征函数,但是决策树求得是一个熵最小的模型,但是由于熵最小的模型又容易过拟合。这里要注意的是:决策树生成的过程虽然利用的熵最小模型,但是这个是在找特征函数,而不是最后优化过程,最后的剪枝过程才是最大熵的过程。

首先考虑经验分布

-c400

其次,满足约束f的概率分布期望值:

![-c400](http://owbxzllzs.bkt.clouddn.com/2018-01-15-15156712749870.jpg

那么,满足约束f的模型期望值:

-c400

利用两者相等,作为约束,同时最大化熵作为目标函数,求优化结果,求得一个模型P(y|x)

-c500

总结:其实最大熵模型的思路就是:

1. 对一个样本集合,因为中心极限定理,大数据量下,随机变量服从正态分布,那么,正好我们在最大化已知均值和方差的微分熵的时候,可以得到正态分布,那么最大熵的模型就是最好的模型。

2. 那对于一个样本集合,我们每一个样本都有特征,对每一个特征设置一个特征函数,一个满足所有特征函数的模型集合里面挑选一个最好的模型。

3. 如何衡量是否满足所有的特征呢?使用期望!

4. 怎么选择呢?用最大熵模型选择。那么模型的约束条件就成了要满足所有特征函数的模型。

-c400

使用拉格朗日,求拉格朗日的最大化

-c500 -c500 -c500

相关文章

  • 最大熵模型详细解析 | 统计学习方法学习笔记 | 数据分析 |

    本文包括: 1.最大熵模型简介2.最大熵的原理3.最大熵模型的定义4.最大熵模型的学习 1.最大熵模型简介: 最大...

  • 一、看文章 “熵”不起:从熵、最大熵原理到最大熵模型(一)“熵”不起:从熵、最大熵原理到最大熵模型(二)“熵”不起...

  • 逻辑斯谛回归与最大熵模型

    逻辑斯谛回归与最大熵模型 逻辑斯谛回归模型 最大熵模型 最大熵模型的学习 逻辑斯谛回归(logistic regr...

  • 逻辑斯谛回归与最大熵模型

    逻辑斯谛回归与最大熵模型 首先介绍逻辑斯谛分布: 二项逻辑斯谛回归模型: 最大熵模型: 最大熵原理是概率模型...

  • 最大熵模型

    在满足约束条件的模型集合中选取熵最大的模型,即不确定最大熵模型。最大熵模型就是要学习到合适的分布 P(y|x) ,...

  • Day 2080:学习

    #统计学习 最大熵模型:由最大熵原理推导而得 最大熵原理是概率模型学习的一个准则,它认为所有可能的概率模型中,熵最...

  • 改进的迭代尺度法(IIS)详细解析 | 统计学习方法学习笔记 |

    IIS是一种最大熵模型学习的最优化算法。最大熵模型:舟晓南:统计学习方法 - 最大熵模型解析 | 数据分析,机器学...

  • 最大熵模型

    序 本次记录的主要内容有:1、熵的概念2、最大熵模型推导 模型属性 ME是经典的分类模型ME是对数线性模型 最大熵...

  • 最大熵模型

    GitHub简书CSDN 1. 最大熵原理 最大熵模型(Maximum Entropy Model)是通过最大熵原...

  • 统计学习方法7.3 - 7.4笔记

    7.3 最大熵模型:拉格朗日乘子法 最大熵模型:在待选集合C中挑选条件熵最大的条件概率分布(P),并且符合约束条件...

网友评论

      本文标题:熵最大模型

      本文链接:https://www.haomeiwen.com/subject/wljjoxtx.html