人工智能通识-科普-最大熵

作者: zhyuzh3d | 来源:发表于2019-04-18 22:45 被阅读5次

    欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


    最大熵是什么?最大熵有什么意义?

    信息熵公式

    在这篇文章中,人工智能通识-科普-信息熵和信息量,我们提到了香农发明的信息熵计算公式:

    H(X)=-\sum _{x \in U }P(x)\log P(x)

    并且我们计算得到了抛掷均匀硬币所得结果的信息熵是1bit,投掷均匀骰子的点数结果的信息熵是2.585bit,对于等概率随机四个数字所得结果的信息熵是2bit。

    那么假设有一个用来作弊的骰子,扔出一点的概率有50%,扔出其他五个点的概率均等,都是10%。那么这个结果的信息熵是:

    \begin{align} &-1\times(\frac{1}{2}\times \log_2\frac{1}{2}+5\times\frac{1}{10}\times\log_2\frac{1}{10})\\ &=-1\times(\frac{1}{2}\times -1+ \frac{1}{2} \times -3.3219)\\ &=-1\times(-0.5 -1.66095 )\\ &=2.166095<2.585\\ \end{align}

    从这个例子我们可以看到,均匀骰子等概率随机产生结果的信息熵最大,任何作弊之后的骰子产生的信息熵都会小于这个最大熵

    再以非均匀的硬币为例,正面朝上的概率如果是0.6,而反面朝上的概率是0.4,那么它产生结果的信息熵是:

    \begin{align} &-0.6\times \log_20.6+-0.4\times \log_20.4\\ &=0.6\times 0.737+0.4\times 1.3219\\ &=0.442+0.52876\\ &=0.97076<1 \end{align}

    上面是我们感性的认识,当然这个规律是可以被数学证明的,即:所有可能性为等概率的时候,结果的信息熵最大

    最大熵与决策树

    信息熵也叫香农熵。信息论中信息量的单位是比特bit,也叫香农单位。消息所带的信息量可以消除不确定性,即消除熵。所以信息熵的单位也是比特。

    比特就是正反两面二选一。

    有ABC三个杯子,一枚硬币一定在某个杯子底下。假设三个杯子盖了硬币的概率是均衡的,那么,怎么解开谜题?我们只要2次判断。

    在A下?\begin{cases} 是\\ 否\to 在B下?\begin{cases} 是\\ 否\to 在C下 \end{cases} \end{cases}

    如果在A下,一问即中;如果在B或C下,要问2次,平均每个杯子问(1+2+2)/3=1.66次,而这个系统只有3种均概率的可能,它输出结果的信息熵是-\log_2\frac{1}{3}=1.585,小于2,所以香农熵是确定每种情况平均所需提问的最小值。

    但实际上我们只能提问整数次,没办法提问小数次,所以实质还是香农熵+1才是合理最小平均提问次数。

    换成6个面的骰子会怎样?是1吗?是2吗?...是5吗?平均每个点数要问的次数是:

    (1+2+3+4+5+5)/6=3.333>2.585

    也许你会用更好的二叉树进行提问:

    大于3?\begin{cases} 是\to 大于5?\begin{cases} 是\to 6\\ 否\to 是5 ?\begin{cases} 是\to 5\\ 否\to 4\\ \end{cases}\\ \end{cases}\\ 否\to 大于2?\begin{cases} 是\to 3\\ 否\to 是2?\begin{cases} 是\to 2\\ 否\to 1 \\ \end{cases}\\ \end{cases} \end{cases}

    这样的话,6和3只问2次,1245则要问三次,平均每个点数对应的问题是:

    (2+2+3+3+3+3)/6=16/6=2.6666>2.585

    用二进制表示N种可能(比如0~N范围的数字),那么至少需要-\log_2\frac{1}{N}个字节,因为这样每个表示的二进制数字才能将所有其他可能的数字区别开来。

    比如说计算机RGB每个颜色有0~255种,也就是\log_2\frac{1}{256}=8,需要8比特才能表示全部情况。

    最大熵原理The Maximum Entropy Principle

    熵描述了无序性,随机性,不确定性。根据热力学第二定律,熵总是趋向增加的。因此,当我们遇到未知的情况的时候,我们应该按照最大熵的情况进行推测。

    实际上,每天我们都是这样做的。

    比如骰子,我们一直习惯于假设它的六个点是均等概率的,并按照这个1/6的概率去推测下一次情况。即使我告诉你这个骰子我做过特殊处理,有50%的概率会投出1点,那么大家也还是会习惯的认为剩下5个点数每种可能都是1/5,这就是用最大熵的思维来思考。

    最大熵就是以知之为知之,以不知为不知。对于已知条件之外的未知情况,我们都习惯于用最大熵的均等概率进行思考

    不要把鸡蛋放在一个篮子里,因为放在一个篮子里不符合最大熵原理,放在多个篮子,概率被比较平静的分散开,就能获得更大熵,更小的风险。

    生命和熵

    热力学第二定律规定在没有外来能量注入的封闭情况下,熵会趋向于增加,而不会减少。

    但这不代表着熵就没有办法增加,恰恰相反,这个定理背后隐含着可以通过引入外部能量来减少系统内的熵,从而使系统变得更加有序。

    地球是个大系统,太阳光源源不断的把能量输送进来,四十亿年以来逐渐诞生了生命。生命的一个热力学定义就是能够通过输入输出实现熵减的系统。

    生命是宇宙熵增大潮中的一股逆流,它逆潮而动,吸收能量,努力减少自身的熵,减少周边世界的熵,让自身变得更有序,让世界变得更有序。

    然而在大尺度上看,生命这种熵减系统的出现,可以更快的加速周边世界能量的释放,更快的实现了更大系统的熵增。

    生命让地球系统的熵更多还是更少?

    我认为是更多。不要只看到鳞次栉比的高楼大厦,更要看到我们消耗了地球储藏了几十亿年的石油、煤炭、天然气资源,甚至我们的技术已经伸向了原子层的核能。

    在宇宙宏观层面,生命无法阻拦整个系统的熵增,实际上,系统内的元素和能量越是活跃,也就越是引发更快的熵增。

    生命既是熵增大潮的中的逆流,也是大潮的助推者,我们人类就像是地球上生长的食腐细菌,我们发展越快,也就越快的导致地球乃至太阳系的无序熵增。

    熵增是无机世界的自然法则,也是真随机事件的内在特征。但是也有两方面值得思考:

    • 在宏观的人类世界,纯粹的真随机事件几乎没有,各种非最大熵系统很广泛的存在着,实际上类似正态分布这样的非最大熵情况比比皆是。

    • 当我们把生命视为逆流的熵减现象时,我们就应该想到,最大熵定理只适合对客观世界的探索,如果我们也把它硬搬过来用以实现真正的类生命智能体,那么很可能是不合适的,甚至是南辕北辙的。


    欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】


    每个人的智能新时代

    如果您发现文章错误,请不吝留言指正;
    如果您觉得有用,请点喜欢;
    如果您觉得很有用,欢迎转载~


    END

    相关文章

      网友评论

        本文标题:人工智能通识-科普-最大熵

        本文链接:https://www.haomeiwen.com/subject/nrsxgqtx.html