基于熵概念的一系列指标是机器学习方法中经常使用的。这里统一做一个全面的整理。(以离散随机变量形式给出)
熵
随机变量,熵为
是其平均不确定性的度量。
联合熵
随机变量的联合分布为,两者的联合熵为
条件熵
条件下的的熵为
条件熵是关于的平均值
一对随机变量的熵,等于其中一个变量的熵,加上另一个的条件熵
进而可推断得到熵的链式法则
信息增益
对样本总体(样本量)有多个类,则样本集的信息总和为(类似总体随机变量的熵)
对样本集进行分组,各组的信息量为
各分组的信息总和则为
而称信息增益,即分组后对信息的贡献程度。
相对熵
又称KL散度,反映两个概率分布之间的差异。
同一个随机变量 x 有两个单独的概率分布和,例如是总体的真是分布,是来自数据的理论分布,用来近似。所以机器学习分类问题评估label与predicts差距时,常使用KL散度(进一步实际使用交叉熵,见下文)。
当两个随机分布相同时,相对熵为0;两者差异越大,相对熵越大。
但相对熵不满足对称性,,且不满足三角不等式,因此其不是一个距离测度。
互信息
一个随机变量包含的关于另一个随机变量的信息量的度量。
有如下性质
-
X含有的Y的信息等于Y中含有的X的信息 -
有时熵称为自信息 -
等号成立的条件是X,Y相互独立 -
互信息的链式法则
交叉熵
也度量两个概率分布的差异性
是相对熵的一部分
在机器学习分类问题评估label与predicts之间差距时,常直接用交叉熵作为损失函数,而不是KL散度,因为是不变的。
网友评论