信息量:
X是一个离散型随机变量,概率分布函数p(x)=Pr(X=x),事件X=x0的信息量为:
- 概率大的事情携带信息量小
-
概率小的事情携带信息量大
熵
对于某件事情,可能有n种可能,每一种可能都带有一个概率p(xi),这样就可以考虑用一个量来计算这件事情的信息量。这个很好理解,直接把这个事情可能发生的各种事件信息量加起来就可以了。
KL散度(相对熵)
相对熵又称KL散度,如果我们对于同一个随机变量x有两个单独的概率分布P(x)和Q(x),我们可以使用KL散度来衡量这两个分布的差异。
-
用P(x)来描述样本的真实分布,用Q(x)来描述样本的预测分布。举例:P(X=猫) = [1,0,0], Q(X=猫) = [0.7,0.1,0.2]
- D_KL值越小,表示P、Q分布越接近
交叉熵
KL散度是交叉熵和信息量公式的组合
交叉熵的公式:
- 在机器学习中,评估标签和预测结果之间的差距就是用交叉熵,因为对于某一个事件信息量一般是固定的,故在优化过程中,只关注交叉熵就可以了。
参考链接:
https://blog.csdn.net/tsyccnh/article/details/79163834
网友评论