作者: TonnyYan | 来源:发表于2018-09-18 11:11 被阅读18次

信息量

I\left( x_i \right) = - \log p\left( x_i \right)

Intuition:概率越小的事件发生,信息量越大

信息熵

H\left[ x \right] = - \sum {p\left( {{x_i}} \right)\log p\left( {{x_i}} \right)}

描述的是一个随机变量分布的平均信息量,信息熵刻画了一个概率分布的不确定性程度,与随机变量的取值无关

K-L divergence 与信息损失量


K-L散度

其中p为观察得到(采样得到)的概率分布(采样分布),q为一个通用的分布(例如神经网络)去近似p。需要注意的是p也只是对真实分布的一个估计而已,数据越多对真实分布的估计就越准确。

K-L 散度(又叫相对熵)描述的就是用q去近似p信息损失的多少,因此它经常作为优化的目标函数,找到原始分布的最优匹配

可以看到,K-L散度其实就是采样到数据的原始分布p与近似分布q之间的信息量差的期望

K-L散度
这里需要注意的是Dkl (p || q) != Dkl (q || p),也就是说用p去近似q和用q去近似p,二者所损失的信息是不一样的。

匹配/学习/拟合就是,用一个通用的带有参数的模型去尽可能的取逼近采样数据所服从的分布(采样分布),需要注意的是如果采样分布不能代表总体的分布(一方面样本采的不够多,另一方面可能传感器存在误差),那么匹配到的模型与真实的模型会存在较大的偏差。需要强调的是,机器学习算法需要做的就是让学习到的模型尽可能的去逼近采样得到的数据

交叉熵

K-L散度 = 交叉熵 - 信息熵,即DKL( p||q ) = H(p,q) − H(p)
H\left( {p,q} \right) = \sum\limits_{i = 1}^N {p\left( {{x_i}} \right)\log \frac{1}{{q\left( {{x_i}} \right)}}}

为什么在深度学习中经常使用交叉熵作为损失函数而不用相对熵(K-L散度),那是因为当数据集给定时,采样分布p(x)就已知了,因此H(p)就是一个常数,所以在求解优化问题的时候就可以舍去H(p)这一项。此时损失函数就变成了交叉熵的表达形式。另外,对交叉熵求最小值,也等效于求最大似然估计(maximum likelihood estimation)

相关文章

  • 一、看文章 “熵”不起:从熵、最大熵原理到最大熵模型(一)“熵”不起:从熵、最大熵原理到最大熵模型(二)“熵”不起...

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

  • 熵增原理简史(一)

    前 言 熵增原理简史,从熵的概念、熵的研究史、熵增原理、宇宙熵增和广义熵增原理五方面阐述。特别是后两块内容,对熵...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵

    GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...

  • 各种熵,条件熵,KL

    熵、条件熵、交叉熵、相对熵 参考《统计学习方法》李航 通俗理解信息熵 - 忆臻的文章 - 知乎 https://z...

  • 【原创|发展】 华为其实一直在做一件事

    关键词:热力学定律 熵增熵减 负熵熵死 华为的冬天 创新发展 耗散模型 在商言熵 自我...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 机器学习算法系列(三):最大熵模型

    一、 熵与条件熵 熵度量的是事物的不确定性。越不确定的事物,它的熵就越大。具体的,随机变量熵的表达式为: 且熵满足...

  • 信息熵相关的定义定理

    1. 信息熵 // todo 2. 条件熵 // todo 3. 联合熵 // todo 4. 相对熵KL距离 5...

网友评论

      本文标题:

      本文链接:https://www.haomeiwen.com/subject/nsoynftx.html