交叉熵与KL散度

作者: LittleSasuke | 来源:发表于2018-08-07 23:46 被阅读674次

老遇到交叉熵作为损失函数的情况,于是总结一下

KL散度

交叉熵从KL散度(相对熵)中引出,KL散度(Kullback-Leibler Divergence)公式为:


1.png

KL散度是衡量两个分布之间的差异大小的,KL散度大于等于0,并且越接近0说明p与q这两个分布越像,当且仅当p与q相等时KL散度取0.

交叉熵

在机器学习的分类问题中,常以交叉熵作为损失函数,此时同样可以衡量两个分布的差异.
在分类问题中,某一个样本x可能是K种类别中的一种,y(x)代表样本x对应类别的分布,y^~(x)代表x属于各个类别的预测值的分布,这句话描述的是关于类别的分布,而不是样本的分布,不要弄混.
训练时,针对某一个标签信息y(x)是已知的,所以讲KL(y(x)||y^~(x))中的H(y(x))是个常数,此时KL散度等价于交叉熵,所以交叉熵可以衡量p(x)与q(x)的差异,我们希望q(x)尽可能地接近p(x),等价于最小化交叉熵
对于某一个样本x,其交叉熵为:

2.png
对于一个数据集x,其交叉熵为:
3.png

总结

因为训练集中每个样本的标签是已知的,此时标签和预测的标签之间的KL散度等价于交叉熵.
要认识到,标签可以看成分布,举例来说,某个分类任务共有4类,其中一个样本的真实标签分布为(0,0,1,0),预测的标签分布为(0.2,0.1,0.5,0.2),使用交叉熵的目的便是使预测的标签分布尽可能接近(0,0,1,0)

相关文章

  • 交叉熵与KL散度

    老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度 交叉熵从KL散度(相对熵)中引出,KL散度(Kullbac...

  • 面试

    最大似然 交叉熵 KL散度 相对熵 Information bottleneck

  • KL散度其实就是相对熵

    一直以为KL散度是什么新奇玩意,但是其实还是旧瓶装新酒 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵_冉茂松...

  • KL散度与交叉熵

    最短编码 信息熵就是信息的最短编码长度,假如我们预测到一个信息符合分布Q,然后我们按照这个预测的分布对信息进行编码...

  • 信息熵+交叉熵+KL散度

    熵的本质是香农信息量,被用于描述一个系统中的不确定性。 在决策树算法中的信息熵: 在反向传播算法中衡量两个分布和差...

  • 简单理解信息熵,交叉熵,相对熵的概念(未完待续...)

    参考资料:机器之心:如何理解KL散度的不对称性?知友CyberRep:如何通俗的解释交叉熵与相对熵?Youtube...

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

  • 机器学习相关的数学知识

    知识点理解: 信息量->熵->相对熵(KL散度)->交叉熵->分类的loss 信息量:I(x0)=−log(p(x...

  • 交叉熵 相对熵(KL散度/互熵)

    香农熵 熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵...

  • 信息量,熵,KL散度,交叉熵

    REFER:陈远. 信息论与编码(第三版). 电子工业出版社. p11徐彬. 实战深度学习算法. 电子工业出版社....

网友评论

    本文标题:交叉熵与KL散度

    本文链接:https://www.haomeiwen.com/subject/rzfgvftx.html