信息熵，KL散度，JS散度

作者: 坐看云起时zym | 来源:发表于2019-08-25 10:55 被阅读0次

信息熵，KL散度，JS散度
KL散度、JS散度、Wassertein距离
KL散度、JS散度、Wasserstein距离和WGAN
交叉熵与KL散度
自信息，KL散度（相对熵），交叉熵，JS散度
面试
信息熵+交叉熵+KL散度
信息熵和KL散度
KL散度其实就是相对熵
机器学习相关的数学知识

信息熵

信息熵(information entropy), 是一种度量随机变量包含信息的多少的指标。在介绍信息熵之前，可以先了解一下何为信息。信息可以理解为随机事件 $x$ 发生时，令人吃惊的程度。也即小概率事件发生时会带来更多的信息，而大概率事件发生带来的信息更少。因此考虑如下的函数形式：
$h(x) = -log_{2}p(x)$
该函数既保证了信息的非负性，同时也保证了低概率事件携带更多的信息。接下来，把各种可能出现的事件的信息量乘以其发生的概率之后求和，也即随机变量 $x$ 携带信息的期望：
$H(X) = - \sum_{x \in X} P(x) logP(x)$
上式即为信息熵的定义。信息熵也可以理解为系统的混乱程度。对于一个M维的离散型的随机变量 X = (1,0,0,...,0), $H(X) = 0$ ;同样任意对于M维随机变量，不难验证，当 $p(x) = 1/M, \forall x \in X$ 时，信息熵最大， $H(X) = lnM$ 。

KL散度

KL散度(Kullback–Leibler divergence), 又名相对熵(Relative entropy)，可以用来衡量两个概率分布的差异。

对于离散型随机变量，KL散度的定义如下：
$D_{KL}(P||Q) = \sum_{x \in X} P(x) log\frac{P(x)}{Q(x)}$
$D_{KL}(Q||P) = \sum_{x \in X} Q(x) log\frac{Q(x)}{P(x)}$
KL散度有定义当且仅当：1、P(x)的和等于1，Q(x)的和等于1；
2、 $\forall x \in X, P(x) \geq 0$ 且 $Q(x) \geq 0$

e.g.
P = (1/2,1/2,0,0), Q = (1/3,2/3,0,0); $D_{KL}(P||Q)$ 有定义
P = (1/2,1/2,0,0), Q = (1/3,1/3,1/3,0); $D_{KL}(P||Q)$ 无定义

对于连续型的随机变量，KL散度的定义如下：
$D_{KL}(P||Q) =\int_{-\infty }^{+\infty}P(x) log\frac{P(x)}{Q(x)}dx$
$D_{KL}(Q||P) =\int_{-\infty }^{+\infty}Q(x) log\frac{Q(x)}{P(x)}dx$

ps: KL散度有两个重要的性质
1、不对称性，即 $D_{KL}(P||Q) \neq D_{KL}(Q||P)$
2、非负性，即 $D_{KL}(P||Q) \geq 0$ 。
性质1不难验证，下面我们来证明性质2：
$D_{KL}(P||Q) = - \int_{-\infty }^{+\infty}P(x) log\frac{Q(x)}{P(x)}dx$
$\because lnx \leq x - 1$
$\therefore -D_{KL}(P||Q) = \int_{-\infty }^{+\infty}P(x) log\frac{Q(x)}{P(x)}dx \leq \int_{-\infty }^{+\infty}P(x) (\frac{Q(x)}{P(x)} - 1) dx = 0$
$D_{KL}(P||Q) \geq 0$

code for KL divergence

import scipy.stats
def KL_divergence(p,q):
    return scipy.stats.entropy(p,q)

JS散度

JS散度(Jensen Shannon divergence), JS散度的定义基于KL散度。

$JSD(P||Q) = \frac{1}{2} D(P||M) + \frac{1}{2} D(Q||M), M = \frac{1}{2} (P + Q)$

对于离散型随机变量，JS散度又可以写成
$\frac{1}{2} \sum_{x \in X} \left \{ {P(x)log \frac{2P(x)}{P(x) + Q(x)} + Q(x)log \frac{2Q(x)}{P(x) + Q(x)}} \right \}$
ps: JS散度有定义的条件与KL散度有定义的条件相同
ps: JS散度有两个重要的性质
1、对称性，即 $JSD(P||Q) = JSD(Q||P)$
2、有界性，若log以2为底，则 $0 \leq JSD(P||Q) \leq 1$

code for JS divergence

import scipy.stats
def JS_divergence(p,q):
    M=(p+q)/2
    return 0.5*scipy.stats.entropy(p, M)+0.5*scipy.stats.entropy(q, M)

Reference:
Pattern Recognition and Machine Learning
https://en.wikipedia.org/wiki/Entropy_(information_theory)
https://zh.wikipedia.org/wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
https://en.wikipedia.org/wiki/Jensen%E2%80%93Shannon_divergence

信息熵，KL散度，JS散度
信息熵信息熵(information entropy), 是一种度量随机变量包含信息的多少的指标。在介绍信息熵之...
KL散度、JS散度、Wassertein距离
KL散度 KL散度又称相对熵，信息散度，信息增益。KL散度是两个概率分布P和Q差别的非对称性的度量。在经典境况下，...
KL散度、JS散度、Wasserstein距离和WGAN
1.KL散度 KL散度又称为相对熵，信息散度，信息增益。KL散度是是两个概率分布P和Q 差别的非对称性的度量。 K...
交叉熵与KL散度
老遇到交叉熵作为损失函数的情况,于是总结一下 KL散度交叉熵从KL散度(相对熵)中引出,KL散度(Kullbac...
自信息，KL散度（相对熵），交叉熵，JS散度
一、自信息信息是一个很抽象的概念，如何衡量一句话或一篇文章的信息量是一个比较难的问题。有时候，人们会说一条新闻信...
面试
最大似然交叉熵 KL散度相对熵 Information bottleneck
信息熵+交叉熵+KL散度
熵的本质是香农信息量，被用于描述一个系统中的不确定性。在决策树算法中的信息熵: 在反向传播算法中衡量两个分布和差...
信息熵和KL散度
熵熵在物理上是表示混乱程度，在信息论中，信息熵用以下方程表示,也就是对分布自信息的期望，单位取决于在计算中使用的...
KL散度其实就是相对熵
一直以为KL散度是什么新奇玩意，但是其实还是旧瓶装新酒机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵_冉茂松...
机器学习相关的数学知识
知识点理解：信息量->熵->相对熵（KL散度）->交叉熵->分类的loss 信息量：I(x0)=−log(p(x...

信息熵，KL散度，JS散度

信息熵

KL散度

JS散度

相关文章

信息熵，KL散度，JS散度

KL散度、JS散度、Wassertein距离

KL散度、JS散度、Wasserstein距离和WGAN

交叉熵与KL散度

自信息，KL散度（相对熵），交叉熵，JS散度

面试

信息熵+交叉熵+KL散度

信息熵和KL散度

KL散度其实就是相对熵

机器学习相关的数学知识

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读