美文网首页
机器学习(信息论):信息熵

机器学习(信息论):信息熵

作者: 星光下的胖子 | 来源:发表于2020-05-30 19:58 被阅读0次

一、相关概念

自信息

当概率p越小,消息x出现的概率就越小,一旦出现所获得的信息量就越大。
因此,我们定义I(x)=\log{(\frac{1}{p(x)})},称I(x)为消息x的自信息量。
自信息用来衡量单一事件发生时所包含的信息量。

信息熵

H(X)=-\sum_{i}p(x_i)\log(p(x_i))
信息熵:随机变量X所有可能取值的信息量的期望。
在信息论中,熵是信息不确定度的度量。不确定度越大,信息量越大,熵越大。

联合熵

H(X,Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x,y))
联合熵是衡量随机变量XY之间的不确定性。

条件熵

H(X|Y)=-\sum_{x}\sum_{y}p(x,y)\log(p(x|y))
条件熵:在已知随机变量Y的条件下,随机变量X的不确定性。
条件熵=联合熵-独立熵,即H(X|Y)=H(X,Y)-H(Y)

交叉熵

H(p(x),q(x))=-\sum_{i}p(x_i)\log(q(x_i))
交叉熵是衡量真实分布p(x)与模拟分布q(x)之间的近似程度。

相对熵/信息散度/KL散度(Kullback-Leibler divergence)

D_{kl}(p(x)||q(x))=\sum_ip(x_i)\log(\frac{p(x_i)}{q(x_i)})
相对熵/信息散度/KL散度(Kullback-Leibler divergence):衡量两个概率分布之间的距离(差异)。
相对熵=交叉熵-独立熵,即D_{KL}(P||Q)=H(P,Q)-H(P)

互信息

I(X;Y)=\sum_{x}\sum_{y}p(x,y)\log(\frac{p(x,y)}{p(x)p(y)})
互信息:两个随机变量XY的联合分布与独立分布乘积的相对熵。
互信息是衡量两个随机变量之间的相关性。


二、互信息、联合熵、相对熵、熵之间的关系

H(X|Y):知道YX还剩多少信息。
H(X;Y):知道Y后给X带来了多少信息损失,H(X;Y)=H(Y;X)
为方便记忆,可将联合熵当做熵的并集,互信息当做熵的交集。

相关文章

  • 信息熵与最大熵模型

    信息熵是什么?机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)信息熵信息论中...

  • 交叉熵——我们如何评估差异

    前言 机器学习的本质是信息论。在信息论中,首先我们引入了信息熵的概念。认为一切信息都是一个概率分布。所谓信息熵,就...

  • 机器学习(信息论):信息熵

    一、相关概念 自信息 当概率越小,消息出现的概率就越小,一旦出现所获得的信息量就越大。因此,我们定义,称为消息的自...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 机器学习各种熵:从入门到全面掌握

    参考文献 1.统计学习方法2.从香农熵到手推KL散度:纵览机器学习中的信息论3.能否尽量通俗地解释什么叫做熵?4....

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 什么是信息熵?

    1948 年,伟大的信息论之父香农(Shannon)将热力学中熵的概念引入到了信息论中,提出了“信息熵”这一概念。...

  • 决策树算法梳理

    决策树算法梳理 1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 1.1 熵 (entropy)...

  • 信息论中的熵和惊异

    @[toc] 信息论基础 信息论涉及编码、解码、发送以及尽可能简洁地处理信息或数据。 熵 信息论的核心思想是量化数...

  • 交叉熵

    信息论: 交叉熵是信息论中的一个概念,要想了解交叉熵的本质,需要先从最基本的概念讲起。 信息量: 首先是信息量。假...

网友评论

      本文标题:机器学习(信息论):信息熵

      本文链接:https://www.haomeiwen.com/subject/rqfhzhtx.html