信息熵

作者: zenny_chen | 来源:发表于2017-11-23 10:24 被阅读58次

概述

信息熵(Information Entropy)定义为:由一个随机(stochastic)数据源所产生的平均信息量。
对每个可能的数据值所关联的信息熵的测量是该值的概率质量函数的负对数。因而,当数据源具有一个较低概率的值时(也就是当一个低概率事件发生时),该事件会携带更多的“信息”;相比之下,如果源数据具有一个较高概率的值时,那么它携带了更少的“信息”。以这种方式而定义的由每个事件所表达的信息量变为一个随机变量,其期望值就是信息熵。一般来说,引用为无序性与不确定性,并且在信息论中所使用的熵的定义很直接的类同于统计热力学中所使用的定义。

两枚硬币的熵
以上两个硬币的图描述了两个比特位的熵。因为一枚硬币有正反两个面,每个面表示这枚硬币的一个值,因此每枚硬币正好有两个值,正好可以用一个二进制比特位来表示。我们对一枚均匀的硬币进行两次投掷,基于比特的信息熵就是以2为底数,可能产生出结果的个数的对数。对于两枚硬币,则可能产生出4种结果以及2个比特的熵。一般来说,信息熵就是一个事件所表达的信息量,并且考虑该事件所有可能产生出的结果。
对于熵的测量使用概率分布的对数是很有用的,因为它对于各个独立的数据源是可叠加的。比如,对一枚均匀硬币的投掷1次的熵是1比特,那么对它投掷m次就是m比特。用直接的方式来表示就是,需要log2(n)个比特位来表示可以取n个值的一个变量,如果n正好是2的幂。如果这些值的发生概率是相同的,那么(基于比特的)熵就等于log2(n)。如果其中一个值的发生概率较大,那么对该值发生的观察所需的信息量就较少。由于较小概率的事件发生更少,因而有效效应为从非均匀分布的数据所接受到的熵(认作为平均信息)总是小于等于log2(n)。当一个产生结果确定发生时,熵为零。熵量化了当源数据的概率分布是已知时的要考虑的事情。所观察事件的意义(消息的意义)对于熵的定义没有任何关系。熵仅仅考虑观察一个特定事件的概率,因此它所封装的信息是关于底层概率分布的信息,而不是事件自身的意义。

介绍

熵是对状态不确定性的测量,或者说是对平均信息内容的测量。要获得对这些术语在直觉上的理解,我们可以考虑一个政治民意调查的例子。通常,要做这些调查投票是因为投票的产出结果还是未知的。换句话说,投票的产出结果相对是不可预测的,而实际进行的投票而获得的结果是给出了某些新的信息;这些只是以不同的方式来说明投票结果的先验熵是大的。现在我们来考虑这么一种情况,当第一次投票完成之后立即执行同样的第二次投票。由于第一次投票结果是已知的,因而第二次投票的结果可以被很好地预测,并且投票结果不应该包含更多新的信息;在这种情况下,第二次投票的先验熵相对于第一次就会变小。
现在考虑投掷硬币的例子。假定正面的概率与反面的概率相同,那么投掷硬币的熵为最大值。这是因为我们无法预测投掷硬币的结果:如果我们要进行选择的话,我们所能做的最佳预测就是硬币会面朝上,而这个预测正确的概率为1/2。这么一次硬币投掷具有一个比特的熵,由于两次投掷的可能结果具有相同的概率,所以实际获得的结果也就包含一个比特的信息。相比之下,使用一枚硬币做投掷两次都是正面超上,没有反面朝上的情况,那么熵为零,由于硬币总是正面朝上,而结果都能完美地预测出。总结来说,具有等概率的一个二值产出结果具有 log22 = 1比特的香农熵。类似地,具有等概率的三值产出结果具有 log23(大约1.58496)比特的信息,因为该结果可能具有三个值中的其中一个。

相关文章

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 信息熵与最大熵模型

    信息熵是什么?机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)信息熵信息论中...

  • 机器学习之决策树

    信息熵: 信息熵描述信息源的不确定程度,信息熵越大、越不确定. 信息熵公式: 例子: 假设中国乒乓球队和巴西乒乓球...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 联合信息熵和条件信息熵

    下面这几个熵都是描述联合分布中的两个变量相互影响的关系。 联合信息熵 联合信息熵的定义如下: 条件信息熵 条件信息...

  • cross entropy交叉熵和ground truth总结

    一.cross entropy 交叉熵 交叉熵的概念得从信息熵的概念说起,我们都知道信息熵,简而言之就是信息量多少...

网友评论

    本文标题:信息熵

    本文链接:https://www.haomeiwen.com/subject/angavxtx.html