一、看文章
“熵”不起:从熵、最大熵原理到最大熵模型(一)
“熵”不起:从熵、最大熵原理到最大熵模型(二)
“熵”不起:从熵、最大熵原理到最大熵模型(三)
信息熵与最大熵模型
二、那么多概念,怎么办
熵,条件熵,联合熵,交叉熵,KL散度(相对熵)
老实说看到怎么概念,立马想放弃,数学就是不停用高深概念打败你,让你退缩。所以你只能个个击破
5个概念,只需要掌握3个,其他几个可以由这三个推导和理解,那么问题化简了,所以我们要了解哪三个?是熵,联合熵,交叉熵
-
1.熵
不多说了,看上述文章
-
2.联合熵
看第一篇文章,可得条件熵 = 联合熵 - 熵
-
3.交叉熵
1、熵的本质的另一种解释:最短平均编码长度;
【本质含义:编码方案完美时,最短平均编码长度的是多少】
2、交叉熵,则可以这样理解:
使用了“估算”的编码后,得到的平均编码长度(可能不是最短的)
p是真实概率分布,q是你以为的概率分布(可能不一致);
你以 q 去编码,编码方案 log(1/q_i)可能不是最优的;
于是,平均编码长度 = ∑ p_i *log(1/q_i),就是交叉熵;
只有在估算的分布 q 完全正确时,平均编码长度才是最短的
[交叉熵](https://www.zhihu.com/question/41252833)
KL散度 = 交叉熵 - 熵
非常不明白,为什么数学书本为什么要把KL散度的公式写成这样?特意搞晕我们吗?显示自己高深?
把公式拆开,也就是KL散度公式该有的形式,立马懂了,谢谢,就到此为止
KL散度公式该有的形式
网友评论