第八章 熵最大模型
[TOC]
1.概念介绍
1.1 熵的定义
文中H表示离散熵,h表示连续熵
1.1.1 信息量
[图片上传失败...(image-b0bdc5-1516029725034)]
信息量是描述事件发生概率和信息量的关系:概率越小的,信息量越大。
1.1.2 熵
事件和信息量相乘,然后求和,描述事件的杂乱程度。也相当于求Log(p(x))的期望
1. 离散熵
随机变量用于描述分类等离散事件的,计算方式是使用数据集里面类别的概率和log概率相乘求和。
-c400当p(x) = 1/(2N -1 )时H(x)最大
2. 微分熵
用于连续变量的信息熵计算。
-c400 -c4002.1 微分熵的性质
-c4002.2 微分熵在概率取正态分布的时候最大。
对于一个微分熵:我们可以写出其等式,但是由于其又是个概率模型,所以还包含了很多约束条件。比如概率不小于0,概率和为1,如果同时知道了其常用的统计量,比如方差均值等,那么又会有统计量的约束条件,总体归结为:
-c400 -c400那么求其最大熵,用拉格朗日:
-c400其中求偏导这一过程,是要先做积分兑换
$$\int_{0}^{1} x \ d[(-p_x(x)logp_x(x) + \lambda_0px(x) + \sum_{i=1}^m\lambda_ig_i(x))]$$
然后求导得到一个带x的式子,但是与x为0无意义,所以舍去。
当已知方差和均值的时候,正态分布的熵最大
证明过程是吧上面的约束条件 -c300替换成方差求法,然后重新拉格朗日。
-c300证明如下
[图片上传失败...(image-2d7d66-1516029725034)]
[图片上传失败...(image-56e71-1516029725034)]
3. 互信息
互信息描述的是两个变量之间关系的大小,其计算方法:
这里给出离散的证明,连续的不给予证明。
3.1. 条件熵
-c5003.2 联合熵
-c5003.3 互信息(MI)
定义:信息熵和条件熵的差,也叫信息增益。
$$MI(Y|X) = H(Y) - H(Y|X)$$
其实就是决策树中C3.5里面用的信息增益。
互信息在离散熵和微分熵的表达方式是不同,但是最后的意义一样。
[图片上传失败...(image-98675e-1516029725034)]
[图片上传失败...(image-59a3b5-1516029725034)]
由I(X;Y) = h(X) - h(X|Y) = 积分项,是怎么得到的就不证明了。
3.4 相对熵
定义:相对熵是衡量两个分布的平均信息差异的。
-c400具有对称性
互信息是一种相对熵
[图片上传失败...(image-61b2a3-1516029725034)]
4. 最大熵模型
重点是:我们如何使用最大熵呢?这里使用的一个思路是:挑选出所有的特征函数,求得满足所有特征函数的一个模型集合,挑选使得熵最大的模型
中心极限定理:中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。这组定理是数理统计学和误差分析的理论基础,指出了大量随机变量之和近似服从正态分布的条件。
那么我们由中心极限定理知道,数据真正的分布式正态分布,由上面介绍的微分熵的模型,当知道数据的均值和方差的时候正态分布熵最大。根据微分熵最大熵等价于正态分布可知:一般认为熵最大的模型是最好的模型
-c500定义约束函数:为了使分类准确,我们往往要对样例提部分特征,而对于不同特征,就可以产生不同的约束,定义为f。
c300举例来说
[图片上传失败...(image-345b37-1516029725034)]
[图片上传失败...(image-bb5a44-1516029725034)]
直观上看,这些特征是需要手工去挑选的,但也可以自动选择,比如决策树里面使用到的特征选择,就是利用信息增益挑选的一个阈值。这样看来决策树也和最大熵有关呢。
求使得熵最大的模型,这就跟决策树的思想类似,我们挑选出多颗决策树,也就相当于求出了很多的特征函数,求一个最大熵的决策树,作为最好的模型,我想起的决策树和最大熵之间的联系就是这个特征函数,但是决策树求得是一个熵最小的模型,但是由于熵最小的模型又容易过拟合。这里要注意的是:决策树生成的过程虽然利用的熵最小模型,但是这个是在找特征函数,而不是最后优化过程,最后的剪枝过程才是最大熵的过程。
首先考虑经验分布
-c400其次,满足约束f的概率分布期望值:
![-c400](http://owbxzllzs.bkt.clouddn.com/2018-01-15-15156712749870.jpg
那么,满足约束f的模型期望值:
-c400利用两者相等,作为约束,同时最大化熵作为目标函数,求优化结果,求得一个模型P(y|x)
-c500总结:其实最大熵模型的思路就是:
1. 对一个样本集合,因为中心极限定理,大数据量下,随机变量服从正态分布,那么,正好我们在最大化已知均值和方差的微分熵的时候,可以得到正态分布,那么最大熵的模型就是最好的模型。
2. 那对于一个样本集合,我们每一个样本都有特征,对每一个特征设置一个特征函数,一个满足所有特征函数的模型集合里面挑选一个最好的模型。
3. 如何衡量是否满足所有的特征呢?使用期望!
4. 怎么选择呢?用最大熵模型选择。那么模型的约束条件就成了要满足所有特征函数的模型。
-c400使用拉格朗日,求拉格朗日的最大化
-c500 -c500 -c500
网友评论