前情回顾:
信息熵 Entropy --- 不确定性的单位
KL Divergence : 衡量两个分布的差异
CrossEntropy 是机器学习中常用的Loss 函数类型, 本文结合 KL Divergence 和LogLikelihood 梳理一下 Cross Entropy 的概念。
在信息论中,用Cross Entropy 来衡量2个分布分距离。其定义为:
其中:
-
: 一般指正确的分布,数据体现分分布, 在机器学习中是label 的分布。
-
: 一般指模型输出的分布, 不如
准确。
和 KL Divergence 的关系
参考熵和KL散度的定义, 交叉熵也可以写成:
其中 是分布
的固有属性, 在机器学习中
一般代表数据的分布, 因此在一个特定的训练中
一般是一个常量。 所以,可以书说: KL 散度和交叉熵是一致的, 优化KL 就是优化 Corss Entropy。
和 Log-Likelihood 的关系
对于分类问题, 我们其实是在训练模型的参数 , 是的模型输出的分布和实际分布尽量的符合数据中的分布

如果在左右变量除以 , 那我们可以得到:

所以, 最大化 Likelihood 就是最小化 Cross Entropy, 二者也是等价的 。
网友评论