美文网首页
NLP-信息熵、条件熵、互信息的简介

NLP-信息熵、条件熵、互信息的简介

作者: Huoyo | 来源:发表于2019-08-21 12:30 被阅读0次

    一、信息熵

    1948年,香农在他的《通信的数学原理》中提出了信息熵的概念,解决了信息的度量问题,如何理解信息的度量,通俗的解释就是有多少信息量,一条信息的信息量与其不确定性有着直接的关系,信息熵代表了事件的不确定程度,概率越大,不确定程度越小,概率越小,不确定程度越大。比如某事情A经常发生,那么它的信息量就相对小,如果某件事B发生的概率极低,那么它的信息量就相对大。信息熵的定义如下:

    H(X)=-\sum_{x \ in \ X}{P(x)*logP(x)} \tag {注意:定义0log0=0,H(X)单位:比特}

    用一个例子来理解该公式:

    假设你想知道隔壁班在本次考试中谁得了第一,那么对应的信息熵为:
    H(X)=P(A第一)*logP(A第一)+P(B第一)*logP(B第一)+P(C第一)*logP(C第一)+...

    二、条件熵

    为什么引入条件熵呢?基于一、,一条信息的信息量与其不确定性有着直接的关系,也就是知道得越多,随机事件的不确定性越小,也就是信息量越小,如果你想知道事件X的信息量,而事件Y的不确定性对X有影响,那么在知道Y的条件下,X的信息熵为:

    H(X|Y)=-\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*logP(x|y)}

    三、互信息

    • 简介
      基于二、,假设了Y对X有影响,也就是X和Y之间有相关性,那么如何度量这种相关性呢?在此引入互信息,定义如下:

    假设有两个随机事件X和Y,那么他们的互信息如下:
    I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}
    =H(X)-H(X|Y)
    可认为:在了解Y的前提下,对消除X的不确定性所提供的信息量

    • 应用-歧义消解
      原理:假设词语X有两层含义a和b,在不同语境下的意思不一致,需要在不同的语境中理解为不同的含义,但是由于都是X无法区分,那么,可以从大量的本文之中,找出和a互信息比较大的n个词作为a的特征,找出和b互信息比较大的n个词作为b的特征,但出现一段文本的时候,根据特征识别X的具体含义,如下(以苹果为例,苹果包含水果和苹果公司两层含义):
      1、从关于苹果公司的语料中学习a的特征
    • 原始语料
    语料1:苹果 致力 于 科技
    语料2:美国人 支持 苹果 公司
    语料3:苹果 是一家 科技 公司
    
    • 去除停用词
    语料1:苹果 致力 科技
    语料2:美国人 支持 苹果 公司
    语料3:苹果 科技 公司
    
    • 概率统计

    语料库中的长度为10,P(苹果)=\frac{3}{10}
    P(致力)=\frac{1}{10},P(致力,苹果)=\frac{1}{7}
    P(科技)=\frac{2}{10},P(科技,苹果)=\frac{2}{7}
    P(美国人)=\frac{1}{10},P(美国人,苹果)=\frac{1}{7}
    P(支持)=\frac{1}{10},P(支持,苹果)=\frac{1}{7}
    P(公司)=\frac{2}{10},P(公司,苹果)=\frac{2}{7}

    那么

    根据I(X;Y)=\sum_{x \ in \ X,y \ in \ Y}{P(x,y)*log{\frac{P(x,y)}{P(x)*P(y)}}}得(这里词已是最小单位,无需\sum):
    I(a;致力)=P(致力,苹果)*log\frac{P(致力,苹果)}{P(苹果)*P(致力)}=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
    I(a;科技)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478
    I(a;美国人)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
    I(a;支持)=\frac{1}{7}*log \frac{\frac{1}{7}}{\frac{3*1}{10*10}}=0.2229
    I(a;公司)=\frac{2}{7}*log \frac{\frac{2}{7}}{\frac{3*2}{10*10}}=0.2478

    • 提取苹果表示苹果公司的特征a:

    本文提取互信息最大的两个特征:科技公司

    2、类推:按照以上过程,提取苹果表示水果的特征b:
    假设提取的b的特征为水果价格

    3、判别:那么输入一个文本的时候,判断该文本中哪一类的特征多即可判断意思

    参考:吴军老师的《数学之美》

    相关文章

      网友评论

          本文标题:NLP-信息熵、条件熵、互信息的简介

          本文链接:https://www.haomeiwen.com/subject/nutbsctx.html