最大熵

作者: 徐振杰 | 来源:发表于2018-10-18 17:13 被阅读0次

    1.其中用到拉格朗日乘子法得到了的最优化的原始问题: \min \limits_{P\epsilon C}\max \limits_{w} L(P,w )
    但是对w并不一定是求最大值,也可能是求最小值如:\min \limits_{P\epsilon C}\min \limits_{w} L(P,w )
    但是这并不影响,因为最小值也具有对偶性

    2.逻辑回归是最大熵最简单的二元形式,让我们来带入最大熵公式来看看
    y=1,f(x,y) =g(x,y)或者 y=0,f(x,y)=0
    P(y=1|x) = \frac{e^{wf(x,y=1)}}{Z(x)} =\frac{e^{w}}{e^{0}+e^{w}}=\frac{1}{1+e^{-w}}
    P(y=0|x) = \frac{e^{wf(x,y=0)}}{Z(x)} =\frac{e^{0}}{e^{0}+e^{w}}=1-\frac{1}{1+e^{-w}}
    正好是逻辑回归的形式,而softmax是多元逻辑回归,因此也符合最大熵的原理。

    3.最大熵为了让模型的期望和经验分布的期望相等,因此引入了约束条件,为了求解有约束的最优化问题,引入了拉格朗日乘子(这里顺便提一下,拉格朗日乘子法和神经网络中的正则化是有点相似的),并通过他的对偶性,将原始问题转换为对偶问题,从而求出了优美的最大熵函数:P(y|x) = \frac{e^{\sum_{i=1}^{n}wf(x,y)}}{\sum_{y}e^{\sum_{i=1}^{n}wf(x,y)}}(写出来很复杂其实真的很优美!)

    4.通过极大似然估计也能证明对偶性。为什么条件概率的似然函数是:


    可以参考https://blog.csdn.net/wkebj/article/details/77965714

    5.优化算法,

    首先是GIS:
    他本身不是梯度,所以迭代时间长,不稳定。

    后来提出了IIS,它比GIS计算时少了两个数量级,而且也算是对GIS的一种推广。
    还可以用梯度下降,拟牛顿法之类的.....

    6.前面学习决策树的时候,一直有个疑问,为什么基尼系数的定义是
    Gini(D,A)=\frac{|D_1|}{|D|}Gini(D_1)+\frac{|D_2|}{|D|}Gini(D_2)
    为什么是这样简单的分配,现在终于找到答案啦!这就是符合最大熵的原理!因为在你不知道每个样本的重要程度的时候,把他们赋予相同的权重是风险最小化的做法,这也是我们常说的不要把鸡蛋放在一个篮子里。

    7.再来谈谈对权重的理解,当我们做predict的时候,我们首先看一看这个样本的某一个特征是否存在权重,如果存在权重则带入最大熵的公式获得期望,若不存在则说明期望为零,之后再把这个样本的所有特征的期望相加得到一个总的期望,比较所有标签的期望,哪个期望大,就选择哪个标签!

    相关文章

      网友评论

          本文标题:最大熵

          本文链接:https://www.haomeiwen.com/subject/hyejzftx.html