@[toc]
信息论基础
信息论涉及编码、解码、发送以及尽可能简洁地处理信息或数据。
熵
信息论的核心思想是量化数据中的信息内容,在信息论中,该数值被称为分布PP的熵(entropy)。可以通过以下方程得到:
信息论的基本定理之一指出,为了对从分布p中随机抽取的数据进行编码,我们至少需要H[P]纳特(nat)对其进行编码。“纳特”相当于位,但是对数底为e而不是2。因此,一个纳特是位。
惊异
想象一下,我们有一个要压缩的数据流。如果我们总是很容易预测下一个数据,那么这个数据很容易压缩!当数据易于预测,也就易于压缩。但是,如果我们不能完全预测每一个事件,那么我们有时可能会感到惊异。当我们赋予一个事件较低的概率时,我们的惊异会更大。克劳德·香农决定用来量化一个人的惊异(surprisal)。在观察一个事件j,并赋予它(主观)概率。
熵是当分配的概率真正匹配数据生成过程时的预期惊异(expected surprisal)。
重新审视交叉熵
如果熵是知道真实概率的人所经历的惊异程度,那么 交叉熵从P到Q,记为,是主观概率为Q的观察者在看到根据概率P实际生成的数据时的预期惊异。当时,交叉熵达到最低。在这种情况下,从P到Q的交叉熵是。
简而言之,我们可以从两方面来考虑交叉熵分类目标:
(i)最大化观测数据的似然;
(ii)最小化传达标签所需的惊异。
网友评论