熵,互信息

作者: jockerMe | 来源:发表于2017-04-03 22:41 被阅读184次

香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。在该文中,香农首次给出了信息熵(以下简称为“熵”)的定义,

熵在数据挖掘中的决策树,以及特征工程中都有应用。通过互信息的变化,来决定决策树中决策变量的选择,以及特征工程因变量的选择。以下介绍几个常用的基本概念。

熵是表示随机变量不确定性的度量,X 是一个取有限值的离散随机变量,其概率分布为:


则随机变量X的熵定义为

当随机变量仅有两个值时,可以绘制熵随两个随机变量概率变化的图像如下:



可以看出,当随机变量取值的概率为0或1时,熵最小,完全没有不确定性。而当随机
变量的概率取值为0.5时,熵最大,随机变量的不确定性也就最大。

条件熵

当随机变量为多维随机变量时,其联合概率分布为:


条件熵H(Y|X),表示已知随机变量X的条件下随机变量Y的不确定性,定义为X给定条件下Y的条件概率分布的熵对X的数学期望:


互信息(信息增益)

信息增益表示特征X的信息使得Y的信息的不确定性减少的程度,定义为集合D的经验熵H(D)与特征A给定的条件下D的经验熵H(D|A)之差:


熵与条件熵只差称为互信息。

  1. H(D)的计算公式


  2. H(D|A)的计算公式

相关文章

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 基于互信息和左右信息熵的短语提取

    1 互信息和信息熵的概念2 算法流程3 代码实现 1 互信息和信息熵的概念 1.1 互信息 互信息体现了两个变量之...

  • 信息熵相关知识总结

    前言 学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • pyhanlp 共性分析与短语提取内容详解

    简介 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是 文本分词进行共性分析。在作者...

  • 新词发现

    1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...

  • 决策树与随机森林(一)

    转自小象学院 我的学习笔记 1. 复习信息熵:熵,联合熵、条件熵、互信息 2. 决策树学习算法:信息增益 | ID...

  • 互信息——事件相关性度量

    延续上一次对熵的理解,今天来看看互信息。先说概念:互信息(Mutual Information)也叫转移信息(tr...

  • 熵、互信息、相对熵

    熵:衡量变量的不确定性,不确定性越大,熵越大;互信息:衡量变量之间的相关性,其值为0时,表示两个变量完全无关,最大...

  • 熵,互信息

    香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathema...

网友评论

    本文标题: 熵,互信息

    本文链接:https://www.haomeiwen.com/subject/srwoottx.html