理解TF-IDF（转载）

作者: 阿门aaa | 来源:发表于2018-12-25 10:37 被阅读0次

TF-IDF，理解起来相当简单，他实际上就是TF*IDF，两个计算值的乘积，用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值，TF和IDF。

TF

TF，是Term Frequency的缩写，就是某个关键字出现的频率，具体来讲，就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式：

image

其中：

TF(i,j)：关键词j在文档i中的出现频率。

n(i,j)：关键词j在文档i中出现的次数。

比如，一篇文章一共100个词汇，其中“机器学习”一共出现10次，那么他的TF就是10/100=0.1。

这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性（出现频率越高就越重要），其实不然，单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的，但是不能反映文章性质的那种词，比如：因为、所以、因此等等的连词，在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF，所以仅仅使用TF来考察一个词的关键性，是不够的。这里我们要引出IDF，来帮助我们解决这个问题。

IDF

IDF，英文全称：Inverse Document Frequency，即“反文档频率”。先看什么是文档频率，文档频率DF就是一个词在整个文库词典中出现的频率，就拿上一个例子来讲：一个文件集中有100篇文章，共有10篇文章包含“机器学习”这个词，那么它的文档频率就是10/100=0.1，反文档频率IDF就是这个值的倒数，即10。因此得出它的计算公式:

image

其中：

IDF(i)：词语i的反文档频率

|D|：语料库中的文件总数

|j:t(i)属于d(j)|出现词语i的文档总数

+1是为了防止分母变0。

于是这个TF*IDF就能用来评估一个词语的重要性。

还是用上面这个例子，我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词，研究某篇500词文章，“机器学习”出现了20次，“而且”出现了20次，那么他们的TF都是20/500=0.04。再来看IDF，对于语料库的100篇文章，每篇都出现了“而且”，因此它的IDF就是log1=0,他的TFIDF=0。而“机器学习”出现了10篇，那么它的IDF就是log10=1,他的TFIDF=0.04>0，显然“机器学习”比“而且”更加重要。

网友评论

本文标题：理解TF-IDF（转载）

本文链接：https://www.haomeiwen.com/subject/gjetlqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

理解TF-IDF（转载）

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读