熵：对不确定性建模框架

作者: 李健Brian | 来源:发表于2021-02-09 08:39 被阅读0次

熵：对不确定性建模框架
日更-《模型思维》15
信息的度量——熵
python实现信息熵
熵
信息熵
生命与熵
熵值法
机器学习-面试总结
信息熵（香农熵）、条件熵、信息增益的简单了解

【书籍/课程名称】熵：对不确定性建模

【类型】

书籍目录框架/课程框架

【关键词】

* 熵，不确定性，信息熵，公理基础，均衡，周期性，随机性，复杂性

【框架】

【一、概念】

* 【熵】

* 熵是用来度量与结果的概率分布相关的不确定性的。因此，它也可以衡量意外。

* 熵是对不确定性的一个正式测度。利用熵，我们可以证明不确定性、信息内容与惊喜之间的等价性。

* 熵与方差不同，方差度量一个数值集合或数值分布的离散程度。不确定性与离散程度有关，但是两者并不是一回事。在具有高不确定性的分布中，许多结果的概率都是有意义的，这些结果并不一定有数值，具有高离散度的分布则只是具有一些极端的数值。

* 给定取值范围为从1到8的整数的若干结果，能够使最大化熵的分布对每个结果赋予相同的权重。而能够使方差最大化的分布则是以1/2的概率取值1、以1/2的概率取值8。

* 熵是在概率分布上定义的。因此它可以应用于非数值数据分布，熵在数学上等于概率与它们的对数之和的相反数。

* 【信息熵】

* 我们先从信息熵这种特殊情况开始讨论。对于信息熵，可以把它理解为根据随机抛硬币的结果来衡量不确定性的一种方法。

* 为了计算出一个分布的信息熵，我们只需求得所有结果（或者像在前面那个例子中那样的结果序列）需要提出的问题的期望数量的平均值。

* 信息熵就对应着“是或否”问题的期望数量。如果我们不得不提出很多问题，那么分布就是不确定的。而知道了结果，也就揭示了信息。

* 【熵的一般表达与公理基础】

* 为了得到熵的一般表达式，我们采用公理化的方法。正如夏普利值的公理基础一样，这些公理对存在性的贡献大于它们本身的合理性。这些公理不仅仅是可辩护的，事实上，它们是难以辩驳的。

* 数学家克劳德·香农对他给出的这种测度施加了四个条件。

* 前三个条件很容易理解，它必定是连续的和对称的，而且在所有结果以相同的概率发生时最大化，同时在某些结果上等于零。

* 第四个条件可分解性则要求在具有m个子类别的n个类别上定义的概率分布的熵，等于各类别上的分布的熵与每个子类别的熵的总和。两个组合随机事件的不确定性理应等于每个事件的不确定性之和。

【二、最大熵分布和假设】

* 我们可以使用熵来表征分布。在没有控制或调节力量的情况下，一些群体可能会向最大熵漂移。给定特定的约束条件，例如不变的均值或方差，就可以解出最大熵分布。

* 最大熵分布：最大熵分布的形状取决于各种约束条件。

* 均匀分布：给定范围［a，b］，使熵最大化。如果假设了一个最小值和一个最大值，那么均匀分布会使熵最大化。无差别原则（principle of indifference）可以证明假设均匀分布的合理性。如果只知道范围或可能集，那么就应当予以无差别的对待。

* 指数分布：给定均值μ，使熵最大化。在某些情况下，我们可能知道分布的均值，也知道所有值都必定是正数。给定这些约束条件，最大熵分布必定具有长尾，因为我们要将分布置于更多的值上，从而必须使少数高值结果与许多低值结果保持平衡。不难证明，熵最大化分布是一个指数分布。

* 正态分布：给定均值μ和方差σ2，使熵最大化。如果我们确定了均值和方差（并且允许出现负值），那么最大熵分布则是正态分布。

【三、利用熵测度对经验数据分类】

* 【四种分类】

* 计算机科学家、数学家斯蒂芬·沃尔弗拉姆（Stephen Wolfram）给出了经验数据四大类别：均衡、周期性、随机性和复杂性：

* 放在桌子上的铅笔处于均衡状态；

* 绕太阳运转的行星处于循环当中；

* 抛硬币的结果序列是随机的，纽约证券交易所的股票价格也是近似随机的；

* 一个人大脑中的神经元发放则是复杂的：它们既不会随意发放，也不会以某个固定的模式发放。

* 【分类依据】

* 可以利用熵的概念来区分四类结果。我们可以将看似随机的复杂模式和真正的随机性区分开来，并且可以分辨出哪些现象看起来像是有一定模式的，但事实上是随机的。

* 平衡结果没有不确定性，因此其熵等于零。

* 周期性过程具有不随时间变化的低熵。

* 完全随机过程具有最大的熵。

* 复杂性具有中等程度的熵，因为复杂性位于有序性和随机性之间。

* 为了对时间序列数据进行分类，我们需要先计算出不同长度的子序列中的信息熵。

* 【熵的意义】

* 我们可以将熵测度用于任何实际应用，一个系统中的熵的本质，不能简单地说好，也不能简单地说不好。我们想要多少熵，取决于具体情况。

* 在制定税法时，我们可能需要一种均衡行为模型，并不希望有随机性。在规划城市时，我们可能会希望看到复杂性，均衡或者周期性都会显得过于平淡。我们希望一个城市充满生机活力，为偶然的相遇和互动提供无限机会。在这种情况下，更多的熵会更好，但是又不能太多。我们不喜欢随机性，随机性会使计划变得非常困难，并可能导致我们的认知能力崩溃。最理想的情况是，世界会产生适度的复杂性，以保证我们生活在一个有趣的时代。