TF-IDF

作者: 三方斜阳 | 来源:发表于2021-06-07 08:47 被阅读0次

SEO算法之TF-IDF算法
NLP基本方法：TF-IDF原理及应用
TF-IDF原理介绍和使用
sklearn-TfidfVectorizer
关键词提取
TF-IDF算法之文本分析
TF-IDF基本概念和原理
第六章（1.1）自然语言处理实战——TF-IDF算法原理
使用scikit-learn计算文本TF-IDF值
TaskThree-20190307

TF（Term Frequency，缩写为TF）：

也就是词频，即一个词在文中出现的次数，统计出来就是词频TF，一个词在文章中出现很多次，那么这个词肯定有着很大的作用，但是我们自己实践的话，肯定会看到你统计出来的TF 大都是一些这样的词：‘的’，‘是’这样的词，这样的词显然对我们的分析和统计没有什么帮助，反而有的时候会干扰我们的统计，需要把这些没有用的词给去掉，现在有很多可以去除这些词的方法，比如使用一些停用词的语料库等。

假设我们把它们都过滤掉了，只考虑剩下的有实际意义的词。这样又会遇到了另一个问题，我们可能发现"中国"、"蜜蜂"、"养殖"这三个词的出现次数一样多。这是不是意味着，作为关键词，它们的重要性是一样的？

显然不是这样。因为"中国"是很常见的词，相对而言，"蜜蜂"和"养殖"不那么常见。如果这三个词在一篇文章的出现次数一样多，有理由认为，"蜜蜂"和"养殖"的重要程度要大于"中国"，也就是说，在关键词排序上面，"蜜蜂"和"养殖"应该排在"中国"的前面。

所以，我们需要一个重要性调整系数，衡量一个词是不是常见词。如果某个词比较少见，但是它在这篇文章中多次出现，那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。