如何衡量不同的分布(系统)?熵。
分布的熵如何定义?每个个体的信息量的先验加权和。
如何计算信息量?为满足f(AB)=f(A)+f(B),定义log。为保证大小变化符合定义,取负。为对应伯努利分布以及计算机01二进制,取2为底。得H(A) = -lg(p(A))
如何衡量不同分布的相似度?对每个个体都计算两个分布a(原系统)和b(模拟系统)的信息差并以先验加权求和——KL散度。KL散度经数学计算,可得D(a||b) = - H(a) + H(a,b),H(a)是a的固有值,故可通过H(a,b)衡量b与a的相似度,称为交叉熵。注意此处a b若互换,值将变化。
如何寻找更相似的分布?数学可证明(吉布斯不等式),H(a,b)恒≥H(a),故D(a||b)恒正,只需求H(a,b)的最小值。
PS :
KL散度 - D(a||b)可衡量b分布对a分布的差异性,受此启发,在特征选择时,可基于D(a||b)+D(b||a)来衡量两类分布对于某特征的差异,差异越大说明两个分布越不相似,我们称这两个相反的KL散度的和为散度。散度不同于KL散度的地方在于它是对称的,a与b的散度等价,且由于是同一系统内的分类,故将熵差称为似然比,简单的数学变换后可发现,散度也可表述为两类的平均似然比之和。
网友评论