信息熵
在文本分类中,假设文本共k类,每类出现的概率是:
![](https://img.haomeiwen.com/i9276893/18d583ae20240846.png)
其中每个类别的信息熵计算公式:
![](https://img.haomeiwen.com/i9276893/195af87799854108.png)
信息熵代表了不不确定性,不确定性越大,信息熵越大。
假如k=1,该类别的概率为1,则不确定性为0,信息熵也为0。
条件熵
条件熵表示在条件X下Y的信息熵:
![](https://img.haomeiwen.com/i9276893/cd6b64cc5f820498.png)
X定义为文本中word是否出现,公示如下:
![](https://img.haomeiwen.com/i9276893/259ed9134a400155.png)
其中:
![](https://img.haomeiwen.com/i9276893/06351c63402627f7.png)
信息增益
信息增益 = 信息熵 - 条件熵
![](https://img.haomeiwen.com/i9276893/6e777b3d78632090.png)
约定A为出现特征t且类别为Ci的文档数,B为出现特征t且类别不为Ci的文档数,C为不出现特征t且类别为Ci的文档数,D为不出现特征t且类别不为Ci的文档数,N为文档总数。
则针对某个类别Ci,特征t的信息增益为:
![](https://img.haomeiwen.com/i9276893/fdd62c51d42d694c.png)
总结
信息增益法在文本分类时用于特征提取, 选取对某类别信息增益比较大的词作为该类的特征。
例如在正负向文本分类中,某个特征(词)针对某个类别(正负向)的信息增益比较大,即该词的出现使该文本为某一类别的概率大大增加,则可将该词作为该类别的特征。
网友评论