熵的定义如下:
条件熵的定义如下:
条件熵.png
H(D)和H(D|A)若从训练集得到,则分别称之为经验熵和经验条件熵;
互信息 = H(D) - H(D|A)
信息增益 = 经验熵 - 经验条件熵;
互信息和信息增益理论上是等价的,只不过信息增益是从训练集中计算得到,是一种经验值,互信息是一种理想值。
交叉熵 与 相对熵/KL散度(摘自github imhuay)
- 定义 P 对 Q 的 KL 散度(Kullback-Leibler divergence):
KL 散度在信息论中度量的是哪个直观量?
- 在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。
KL散度的性质:
- 非负;KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的
- 不对称;D_p(q) != D_q(p)
交叉熵(cross-entropy):
信息量,信息熵,交叉熵,KL散度和互信息(信息增益) - CSDN博客
交叉熵 与 KL 散度的关系
- 针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。
-
最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。
《深度学习》 ch5.5 - 最大似然估计
网友评论