美文网首页
信息增益法

信息增益法

作者: 从0到1024 | 来源:发表于2018-02-28 11:47 被阅读0次

信息熵

在文本分类中,假设文本共k类,每类出现的概率是:

其中每个类别的信息熵计算公式:

信息熵代表了不不确定性,不确定性越大,信息熵越大。

假如k=1,该类别的概率为1,则不确定性为0,信息熵也为0。

条件熵

条件熵表示在条件X下Y的信息熵:

X定义为文本中word是否出现,公示如下:

其中:

信息增益

信息增益 = 信息熵 - 条件熵

约定A为出现特征t且类别为Ci的文档数,B为出现特征t且类别不为Ci的文档数,C为不出现特征t且类别为Ci的文档数,D为不出现特征t且类别不为Ci的文档数,N为文档总数。

则针对某个类别Ci,特征t的信息增益为:

总结

信息增益法在文本分类时用于特征提取, 选取对某类别信息增益比较大的词作为该类的特征。

例如在正负向文本分类中,某个特征(词)针对某个类别(正负向)的信息增益比较大,即该词的出现使该文本为某一类别的概率大大增加,则可将该词作为该类别的特征。

相关文章

  • 信息增益法

    信息熵 在文本分类中,假设文本共k类,每类出现的概率是: 其中每个类别的信息熵计算公式: 信息熵代表了不不确定性,...

  • 信息增益与信息增益比

    首先,我们说熵,熵是随机变量不确定性的度量 那么,为什么用这个公式来定义熵,我们看下熵随概率的变化曲线便会一目了然...

  • [Mark]信息增益、信息增益比、CART

  • 机器学习算法——决策树3(信息增益和ID3算法)

    信息增益 信息增益 算法思想 信息增益的算法过程为: 出入:训练数据集D和特征A 输出:特征A对训练数据集D的信息...

  • 信息熵、条件熵、信息增益、信息增益率

    一、信息熵 1. 信息熵提出背景 我们生活在一个信息爆炸的时代,从信息学的角度来说,人类进步的本质就是不断的打...

  • decision tree

    ID3 C4.5 CART 比较 ID3(以信息增益为准则选择信息增益最大的属性) 缺点 信息增益对==可取值数目...

  • 信息增益,熵

    概念:在信息增益中,衡量标准是看特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。对一个特征而言,系统...

  • 决策树learning

    1.0 理论 熵 条件熵 信息增益 信息增益比 1.0 sklearn.tree 首先,http://scikit...

  • 特征选择之信息增益

    在文本分类中利用信息增益进行特征提取 信息增益体现了特征的重要性,信息增益越大说明特征越重要 假设数据中有k类: ...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

网友评论

      本文标题:信息增益法

      本文链接:https://www.haomeiwen.com/subject/plsbxftx.html