美文网首页机器学习机器学习
交叉熵 相对熵(KL散度/互熵)

交叉熵 相对熵(KL散度/互熵)

作者: Arya鑫 | 来源:发表于2017-08-03 11:36 被阅读227次

    香农熵

    熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。


    交叉熵

    交叉熵考察的是两个的信息(分布)的期望:

    交叉熵和熵,相当于,协方差和方差


    相对熵

    相对熵考察两个信息(分布)之间的不相似性:

    所谓相对,自然在两个随机变量之间。又称互熵,Kullback–Leibler divergence(K-L 散度)等。设p(x)和q(x)是X取值的两个概率分布,则p对q的相对熵为:

    在一定程度上,熵可以度量两个随机变量的距离。KL 散度是两个概率分布 P 和 Q 差别的非对称性的度量。KL 散度是用来度量使用基于 Q 的编码来编码来自 P 的样本平均所需的额外的位元数。

    典型情况下,P 表示数据的真实分布,Q 表示数据的理论分布,模型分布,或 P 的近似分布。

    相对熵的性质,相对熵(KL散度)有两个主要的性质。如下

    (1)尽管 KL 散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即

    (2)相对熵的值为非负值,即


    三者之间的关系:

    简森不等式与 KL散度:

    因为−lnx是凸函数,所以满足,凸函数的简森不等式的性质:

    这里我们令f(⋅)=−lnx,则其是关于x的凸函数,因此:

    也即 KL 散度恒大于等于 0;


    联合熵

    联合熵:(X,Y)在一起时的不确定性度量


    条件熵

    条件熵:    X确定时,Y的不确定性度量

                  在X发生是前提下,Y发生新带来的熵。

    联系:

    如果是回归问题的,使用平方损失函数。分类问题建议使用交叉熵损失,用平方损失会出现如下问题:在误差较大时,损失函数比较平坦,更新较慢,还会出现梯度为0的情况,期望的情况是训练完成时,到达某个极值点,这时梯度为0,所以就没办法判断训练是否完成了。交叉熵损失就不会出现这种情况,在远离目标的时候,曲线比较陡峭。


    来源:http://blog.csdn.net/lanchunhui/article/details/50970625

              http://blog.csdn.net/lanchunhui/article/details/53365438

              http://blog.csdn.net/lanchunhui/article/details/51277608

              http://www.cnblogs.com/little-YTMM/p/5582271.html


    相关文章

      网友评论

        本文标题:交叉熵 相对熵(KL散度/互熵)

        本文链接:https://www.haomeiwen.com/subject/ftnulxtx.html