NLP-信息熵、条件熵、互信息的简介

作者: Huoyo | 来源:发表于2019-08-21 12:30 被阅读0次

NLP-信息熵、条件熵、互信息的简介
熵之道
一文理解机器学习中的各种熵
信息熵相关知识总结
决策树与随机森林（一）
pyhanlp 共性分析与短语提取内容详解
基于互信息和左右信息熵的短语提取
熵、条件熵、信息增益（互信息）
新词发现
熵、互信息、相对熵

一、信息熵

1948年,香农在他的《通信的数学原理》中提出了 $信息熵$ 的概念，解决了信息的度量问题，如何理解信息的度量，通俗的解释就是有多少信息量，一条信息的信息量与其不确定性有着直接的关系，信息熵代表了事件的不确定程度，概率越大，不确定程度越小，概率越小，不确定程度越大。比如某事情A经常发生，那么它的信息量就相对小，如果某件事B发生的概率极低，那么它的信息量就相对大。信息熵的定义如下：

$H(X)=-\sum_{x \ in \ X}{P(x)*logP(x)} \tag {注意：定义0log0=0，H(X)单位：比特}$

用一个例子来理解该公式：

假设你想知道隔壁班在本次考试中谁得了第一，那么对应的信息熵为：
$H(X)=P(A第一)*logP(A第一)+P(B第一)*logP(B第一)+P(C第一)*logP(C第一)+...$

二、条件熵

为什么引入条件熵呢？基于一、，一条信息的信息量与其不确定性有着直接的关系，也就是知道得越多，随机事件的不确定性越小，也就是信息量越小，如果你想知道事件X的信息量，而事件Y的不确定性对X有影响，那么在知道Y的条件下，X的信息熵为：

$H(X|Y)=-\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*logP(x|y)}$

三、互信息

简介
基于二、，假设了Y对X有影响，也就是X和Y之间有相关性，那么如何度量这种相关性呢？在此引入互信息，定义如下：

假设有两个随机事件X和Y，那么他们的互信息如下：
$I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}$
$=H(X)-H(X|Y)$
可认为：在了解Y的前提下，对消除X的不确定性所提供的信息量

应用-歧义消解
原理：假设词语X有两层含义a和b，在不同语境下的意思不一致，需要在不同的语境中理解为不同的含义，但是由于都是X无法区分，那么，可以从大量的本文之中，找出和a互信息比较大的n个词作为a的特征，找出和b互信息比较大的n个词作为b的特征，但出现一段文本的时候，根据特征识别X的具体含义，如下（以苹果为例，苹果包含水果和苹果公司两层含义）：
1、从关于苹果公司的语料中学习a的特征
原始语料

语料1：苹果 致力 于 科技
语料2：美国人 支持 苹果 公司
语料3：苹果 是一家 科技 公司

去除停用词

语料1：苹果 致力 科技
语料2：美国人 支持 苹果 公司
语料3：苹果 科技 公司

概率统计

语料库中的长度为10, $P(苹果)=\frac{3}{10}$
$P(致力)=\frac{1}{10}，P(致力,苹果)=\frac{1}{7}$
$P(科技)=\frac{2}{10}，P(科技,苹果)=\frac{2}{7}$
$P(美国人)=\frac{1}{10}，P(美国人,苹果)=\frac{1}{7}$
$P(支持)=\frac{1}{10}，P(支持,苹果)=\frac{1}{7}$
$P(公司)=\frac{2}{10}，P(公司,苹果)=\frac{2}{7}$

那么

根据 $I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}$ 得(这里词已是最小单位，无需 $\sum$ ):
$I(a;致力)=P(致力,苹果)*log\frac{P(致力,苹果)}{P(苹果)*P(致力)}=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229$
$I(a;科技)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478$
$I(a;美国人)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229$
$I(a;支持)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229$
$I(a;公司)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478$

提取苹果表示苹果公司的特征a:

本文提取互信息最大的两个特征：科技、公司

2、类推:按照以上过程，提取苹果表示水果的特征b:
假设提取的b的特征为水果、价格

3、判别：那么输入一个文本的时候，判断该文本中哪一类的特征多即可判断意思

参考：吴军老师的《数学之美》

NLP-信息熵、条件熵、互信息的简介
一、信息熵 1948年,香农在他的《通信的数学原理》中提出了的概念，解决了信息的度量问题，如何理解信息的度量，通俗...
熵之道
熵的定义如下：互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵；互信息和信息增益理...
一文理解机器学习中的各种熵
本文的目录组织如下：【1】自信息【2】熵（香农熵）【3】联合熵【4】条件熵【5】互信息（信息增益）【6】熵、联...
信息熵相关知识总结
前言学习决策树时会接触到一些信息熵,条件熵和信息增益的知识,此外还有互信息,相对熵,交叉熵和互信息,KL散度等等...
决策树与随机森林（一）
转自小象学院我的学习笔记 1. 复习信息熵：熵，联合熵、条件熵、互信息 2. 决策树学习算法：信息增益 | ID...
pyhanlp 共性分析与短语提取内容详解
简介 HanLP中的词语提取是基于互信息与信息熵。想要计算互信息与信息熵有限要做的是文本分词进行共性分析。在作者...
基于互信息和左右信息熵的短语提取
1 互信息和信息熵的概念2 算法流程3 代码实现 1 互信息和信息熵的概念 1.1 互信息互信息体现了两个变量之...
熵、条件熵、信息增益（互信息）
信息增益首先明确一点，信息熵是信息量的期望！期望！期望！（各种信息熵都是如此，像熵、条件熵、信息增益）熵：表示随...
新词发现
1.基于互信息和左右信息熵的短语提取识别 2.反作弊基于左右信息熵和互信息的新词挖掘 3.基于spark的新词发现...
熵、互信息、相对熵
熵：衡量变量的不确定性，不确定性越大，熵越大；互信息：衡量变量之间的相关性，其值为0时，表示两个变量完全无关，最大...

NLP-信息熵、条件熵、互信息的简介

一、信息熵

二、条件熵

三、互信息

相关文章

NLP-信息熵、条件熵、互信息的简介

熵之道

一文理解机器学习中的各种熵

信息熵相关知识总结

决策树与随机森林（一）

pyhanlp 共性分析与短语提取内容详解

基于互信息和左右信息熵的短语提取

熵、条件熵、信息增益（互信息）

新词发现

熵、互信息、相对熵

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读