美文网首页
交叉熵、KL散度和极大似然

交叉熵、KL散度和极大似然

作者: 7ccc099f4608 | 来源:发表于2021-04-26 09:53 被阅读0次

https://www.zhihu.com/question/65288314
https://www.cnblogs.com/arkenstone/p/10524720.html

  1. A和B的KL散度 = A和B的交叉熵 - A的熵:
    a. 当A的熵为常亮时,KL散度和交叉熵是等价的
    b. 模型使用交叉熵作为损失函数,实际上是学习训练集的数据分布(模型输出分布和训练集分布差距减小,交叉熵定义;默认训练集分布和真实分布保持一致,这是所有模型训练的基础)
  2. 交叉熵最小实质上就是最大似然估计(MLE)
image.png image.png

注:

  1. 熵都是-log形式
  2. KL散度和交叉熵都不是距离,因为不具有对称性,即A和的KL散度与B和A的KL散度不同(相对变化,坐标系概念)

相关文章

  • 面试

    最大似然 交叉熵 KL散度 相对熵 Information bottleneck

  • 交叉熵、KL散度和极大似然

    https://www.zhihu.com/question/65288314[https://www.zhihu...

  • 交叉熵与KL散度

    老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度 交叉熵从KL散度(相对熵)中引出,KL散度(Kullbac...

  • KL散度其实就是相对熵

    一直以为KL散度是什么新奇玩意,但是其实还是旧瓶装新酒 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵_冉茂松...

  • 信息熵+交叉熵+KL散度

    熵的本质是香农信息量,被用于描述一个系统中的不确定性。 在决策树算法中的信息熵: 在反向传播算法中衡量两个分布和差...

  • KL散度与交叉熵

    最短编码 信息熵就是信息的最短编码长度,假如我们预测到一个信息符合分布Q,然后我们按照这个预测的分布对信息进行编码...

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

  • 机器学习相关的数学知识

    知识点理解: 信息量->熵->相对熵(KL散度)->交叉熵->分类的loss 信息量:I(x0)=−log(p(x...

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 交叉熵 相对熵(KL散度/互熵)

    香农熵 熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵...

网友评论

      本文标题:交叉熵、KL散度和极大似然

      本文链接:https://www.haomeiwen.com/subject/theghltx.html