美文网首页
特征选择之互信息

特征选择之互信息

作者: 山的那边是什么_ | 来源:发表于2016-05-28 15:47 被阅读5168次

互信息(mutual information)是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量

互信息公式

在对文本进行特征选择的时候,X表示某个词,Y表示类别,xi表示这个词的取值,在这里只有两种情况,出现和不出现,yi表示某一类,可能两类可能多类。

xi 和yi同时出现在整个数据集中的概率:

联合概率

xi在 整个数据集中出现的概率:

词概率

yi在这个数据集中出现的概率:

类概率

对文本特征提取xi的取值只能是出现和不出现两种情况

使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高,但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度,如果特征词属于该类的话,它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设,因此非常适合于文本分类的特征和类别的配准工作。

特征项和类别的互信息体现了特征项与类别的相关程度,是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率,这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲,特征t的互信息越大,说明它与该主题的共现概率越大,因此,以互信息作为提取特征的评价时应选互信息最大的若干个特征。

互信息计算的时间复杂度类似于信息增益,互信息的平均值就是信息增益。互信息的不足之处在于得分非常受词条边缘概率的影响。

参考:http://blog.chinaunix.net/uid-20767210-id-1849628.html

相关文章

  • 特征选择之互信息

    互信息(mutual information)是用来评价一个事件的出现对于另一个事件的出现所贡献的信息量 在对文本...

  • Task3

    特征选择 TF-IDF原理以及利用其进行特征筛选 互信息的原理以及利用其进行特征筛选 TF-IDF 原理: 如何提...

  • 基于互信息和左右信息熵的短语提取

    1 互信息和信息熵的概念2 算法流程3 代码实现 1 互信息和信息熵的概念 1.1 互信息 互信息体现了两个变量之...

  • spark之特征选择

    特征选择 坊间传言:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。因此特征工程显得尤为重要,本...

  • 机器学习之特征工程-特征选择

    一个基本的数据挖掘场景如下: 从上面的数据挖掘场景可知,当数据预处理完成后,我们需要选择有意义的特征,输入机器学习...

  • 某公司自然语言处理算法笔试题

    1 请列出几种文本特征提取算法 答:文档频率、信息增益、互信息、X^2统计、TF-IDF 2 简述几种自然语言处理...

  • 决策树

    例子1 打网球 抓重点:每个特征的影响力 例子2 选择属性 例子3 特征选择特征选择2特征选择3随机森林选择特征...

  • 3. 机器学习之特征选择

    1. 特征选择( Feature Selection ) 1.1 特征选择的定义 特征选择( Feature ...

  • 特征选择之信息增益

    在文本分类中利用信息增益进行特征提取 信息增益体现了特征的重要性,信息增益越大说明特征越重要 假设数据中有k类: ...

  • 浅读机器学习有感(二)

    六、机器学习中的特征选择: 6.1什么是特征选择? 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训...

网友评论

      本文标题:特征选择之互信息

      本文链接:https://www.haomeiwen.com/subject/gmifdttx.html