美文网首页
神经网络损失函数中的各种常见熵(信息熵、KL散度、交叉熵、互信息

神经网络损失函数中的各种常见熵(信息熵、KL散度、交叉熵、互信息

作者: 昭君姐 | 来源:发表于2019-05-31 23:43 被阅读0次

信息熵 Information entropy

对于离散的随机变量x,首先定义其自信息I(x),它应该有以下两个特点:

  • I(x)应该依赖于概率分布p(x),是p(x)的单调函数
  • 观察两个事件同时发生时获得的信息量应该等于观察到事件各自发生时获得的信息之和,即I(x,y)=I(x)+I(y),同时满足p(x,y)=p(x)p(y)

基于上述特点,可定义I(x)=-logp(x),负号保证I(x) \geq 0

熵表示对所有可能发生的事件产生的信息量的期望:
H(X) =-\sum_{i=1}^{n}p(x_i)logp(x_i)

联合熵 Joint entropy

\begin{align} H(X,Y) &= -\sum_{x,y}p(x,y)logp(x,y) \\ &= -\sum_{i=1}^{n} \sum_{j=1}^mp(x_i,y_j)logp(x_i,y_j) \end{align}

条件熵 Conditional entropy

\begin{align} H(Y|X) &= \sum_{x}p(x)H(Y|X=x) \\ &= -\sum_{x}p(x)\sum_yp(y|x)logp(y|x) \\ &= -\sum_{x,y}p(x,y)logp(y|x) \end{align}

相对熵 Relative entropy,也称为KL散度

分布p的最佳信息传递方式来传达分布q,比用分布q自己的最佳信息传递方式来传达分布q,平均多耗费的信息长度为相对熵

p(x),q(x)是离散随机变量X中取值x的两个概率分布:
H(p||q) = KL(p||q) = \sum_x p(x)log\frac{p(x)}{q(x)}
KL散度是不对称的,即KL(p||q) \neq KL(q||p)。JS散度解决KL不对称问题。
JS(p||q) = \frac{1}{2}KL(p||\frac{p+q}{2})+\frac{1}{2}KL(q||\frac{p+q}{2})

交叉熵 Cross entropy

用分布p的最佳信息传递方式来传达分布q中随机抽选的一个事件,所需的平均信息长度为交叉熵
\begin{align} H(p, q) &= -\sum_xp(x)logq(x) \\ &= -\sum p(x)(logp(x) - log\frac{p(x)}{q(x)}) \\ &= H(p) + KL(p||q) \end{align}

互信息 mutual information

一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性

\begin{align} I(X,Y) & = H(X) - H(X|Y) = H(Y) - H(Y|X) \\ & = -\sum_x p(x)log p(x) + \sum_{x, y} p(x, y) log p(x|y) \\ & = -\sum_x \sum_yp(x,y)log p(x) + \sum_{x, y} p(x, y) log \frac{p(x,y)}{p(y)} \\ & = -\sum_{x,y}p(x, y) log p(x) + \sum_{x, y} p(x, y) log \frac{p(x,y)}{p(y)} \\ & = \sum_{x,y}p(x,y)log\frac{p(x,y)}{p(x)p(y)} \end{align}

相关文章

  • 交叉熵与KL散度

    老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度 交叉熵从KL散度(相对熵)中引出,KL散度(Kullbac...

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 神经网络损失函数中的各种常见熵(信息熵、KL散度、交叉熵、互信息

    信息熵 Information entropy 对于离散的随机变量,首先定义其自信息,它应该有以下两个特点: 应该...

  • 面试

    最大似然 交叉熵 KL散度 相对熵 Information bottleneck

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

  • KL散度其实就是相对熵

    一直以为KL散度是什么新奇玩意,但是其实还是旧瓶装新酒 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵_冉茂松...

  • 机器学习相关的数学知识

    知识点理解: 信息量->熵->相对熵(KL散度)->交叉熵->分类的loss 信息量:I(x0)=−log(p(x...

  • 信息熵+交叉熵+KL散度

    熵的本质是香农信息量,被用于描述一个系统中的不确定性。 在决策树算法中的信息熵: 在反向传播算法中衡量两个分布和差...

  • 信息熵/相对熵/交叉熵

    信息熵 信息熵也被称为熵,用来表示所有信息量的期望。 其中X是一个离散型随机变量。 相对熵 相对熵即KL散度。如果...

  • 损失函数 - 交叉熵损失函数

    参考[1]损失函数 - 交叉熵损失函数

网友评论

      本文标题:神经网络损失函数中的各种常见熵(信息熵、KL散度、交叉熵、互信息

      本文链接:https://www.haomeiwen.com/subject/skpntctx.html