KL散度、JS散度、Wassertein距离

作者: LuDon | 来源:发表于2019-03-21 11:04 被阅读0次

KL散度

KL散度又称相对熵，信息散度，信息增益。KL散度是两个概率分布P和Q差别的非对称性的度量。在经典境况下，P表示数据的真实分布，Q表示数据的理论分布，模型分布。
定义如下：
$D_{KL}(P||Q) = - \sum P(x)log 1/P(x) + \sum P(x)log1/Q(x) = \sum P(x)logP(x)/Q(x)$

对数函数为凸函数，所以KL散度的值为分复数。

KL散度有时也称为KL距离，但它并不满足距离的性质：
1、KL散度不是对称的；
2、KL散度不满足三角不等式。

JS散度

JS散度是度量两个概率分布的相似度，是基于KL散度的变体，解决了KL散度非对称的问题。
定义如下：
$JS(P_1||P_2) = 1/2 KL(P_1||(P_1+P_2)/2) +1/2KL(P_2||(P_1+P_2)/2)$

KL散度和JS散度度量的时候都有一个问题：如果两个分布P,Q距离较远，完全没有重叠的时候，KL散度是没有意义的，在学习的时候，这就意味着在这一点的梯度为0，即梯度消失了。

Wasserstein距离

Wasserstein距离度量的是两个管理分布之间的距离。定义如下：
$W(P_1, P_2) = inf E_{(x,y)-r}[||x-y||] s.t. r-H(P_1, P_2)$
$H(P_1, P_2)$ 为 $P_1$ 和 $P_2$ 的分布组合起来的所有可能的联合分布的集合。对于每一个可能的联合分布 $r$ ，可以从中采样(x,y)~r得到一个样本x和y，并计算出这对样本的距离||x-y||，进而可以计算样本对距离的期望值。在所有可能的联合分布中能够对这个期望取到的下界就是Wasserstein距离。

直观上就是在r这个路径的规划下把土堆 $P_1$ 挪到土堆 $P_2$ 所需要的消耗。Wasserstein距离就是在最优的路径下的最小消耗。

Wasserstein距离相比于KL散度和JS散度的优势在于：即使两个分布的支撑没有重叠或者重叠较少，仍然能够反映两个分布之间的远近。

网友评论

本文标题：KL散度、JS散度、Wassertein距离

本文链接：https://www.haomeiwen.com/subject/epnfvqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！