熵也代表着根据信息的概率分布对信息编码所需要的最短平均编码长度。
熵是衡量“信息量“大小的一个数值。
在信息论里面,熵(entropy)是信息不确定性的一个测度,熵越大则表示信息的不确定程度越高。
例子:
如果这件事发生的概率是1,则其信息熵H=0,意思就是说了跟没说一样;如果这件事发生的概率是1,则其信息熵H=0,意思就是说了跟没说一样;
比如你扔一个骰子,正常情况下扔出1-6的可能性都是1/6,那么H=log6;
但是如果你已经事先知道这骰子其实只能扔出1,那么扔骰子这件事的熵就是0,你扔了和没扔一样。
随机变量的熵也描述了,你做一次这个实验,对你而言能获得的信息量有多少。如果这个实验你每次做全是一个结果,那你还做它干啥?
差不多就是这个意思。可以证明,当且仅当这k种可能性发生概率均等的时候,事件A的熵是最高的
条件熵:在一个条件下,随机变量的不确定性。
信息增益: 在一个条件下,信息不确定性减少的程度!
信息增益(information gain)是指期望信息或者信息熵的有效减少量(通常用“字节”衡量),根据它能够确定在什么样的层次上选择什么样的变量来分类。
在决策树中,如果选择一个特征后,信息增益最大(信息不确定性减少的程度最大),那么我们就选取这个特征。
网友评论