香农熵

作者: jxc1 | 来源:发表于2019-11-21 16:00 被阅读0次

香农熵,又称信息熵,熵,可以用来代表某数据集合的不一致性。熵的值越高,则代表数据集的不一致性越高。

熵与概率的关系

    举例:当一个桶中有四个球,从左到右分别为红色、红色、红色、绿色。现有放回地从桶中抓球,每次抓取一个,求抓出球的顺序仍然为红、红、红、蓝的概率。

可知,第一次抓出红球的概率:0.75

           第二次抓出红球的概率:0.75

           第三次抓出红球的概率:0.75

           第四次抓出绿球的概率:0.25

           按顺序抓出四个球的概率:0.75*0.75*0.75*0.25 = 0.105

若桶中的四个球都是红色,那么我们按顺序抓出四个球的概率是1。

这个时候我们发现当桶里的球更加多样(不一致)的时候,概率更高,熵代表的值和概率对于不一致性的关系是相反的。

我们知道熵的计算公式:

H = -Σ_{i=1}^{n}p(x_{i})log_2p(x_{i})

从概率到熵:

我们知道 log(ab) = log(a)+lob(b)

-log_2(0.75)-log_2(0.75)-log_2(0.75)-log_2(0.25) =-log_2( 0.105)=3.245

取均值有0.25*3.245 = 0.811

还可写成:-\frac{3}{4}*log_2{0.75}-\frac{1}{4}log_20.25 = 0.811

同时,若桶中均为红球,那么有:-log_2(1)-log_2(1)-log_2(1)-log_2(1) =0

更通用的公式显而易见:

当桶中有m个红球、n个绿球时,有:

Entropy = \frac{-m}{m+n}*log_2(\frac{m}{m+n})+\frac{-n}{m+n}*log_2(\frac{n}{m+n})

至此得到熵的公式。

在决策树中,通过计算划分出的不同数据集的熵,分别与划分之前数据集的熵比较得出信息增益,得出信息增益最高的数据集的情况,此时的特征则为决策树此时创建分支的最好特征。

相关文章

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 香农熵

    香农熵,又称信息熵,熵,可以用来代表某数据集合的不一致性。熵的值越高,则代表数据集的不一致性越高。 熵与概率的关系...

  • 交叉熵 相对熵(KL散度/互熵)

    香农熵 熵考察(香农熵)的是单个的信息(分布)的期望:反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • 关于麦克斯韦妖与熵

    前言:麦克斯韦妖的解决方案——信息熵(香农熵)的减少有赖于能量输入。具体大小为以比特计位的香农熵的 kln2 倍。...

  • 软考-信息补充

    香农信息公式: 1、单调性。概率越大,信息熵越小,概率越小,信息熵越大 2、非负性。信息熵大于0 3、可加性。几个...

  • 香农信息熵、交叉熵和相对熵

    一条信息的不确定性由它出现概率的负对数函数来表示。一方面负对数函数在数值上概率输入的单调递减函数,比如输入为1时值...

  • “熵”的理解

    01 什么是“信息熵” 香农提出“信息熵”的概念,解决了对信息的量化度量问题。热力学中的热熵是表示分子状态混乱程度...

  • 香农熵 无序的度量

    转载自:https://blog.csdn.net/theonegis/article/details/79890...

  • 网络安全与保密基本概念考试复习

    熵 香农利用概率分布的结论给出“熵”的定义,确定发生的事件和确定不发生的事件,熵都是0,只有当发生和不发生的概率相...

网友评论

      本文标题:香农熵

      本文链接:https://www.haomeiwen.com/subject/vydtwctx.html