前言
当你需要要给一大堆的文档提取关键词的时候,如果能够让机器自动提取的话,想必能够省下不少时间,_。这个问题似乎要涉及到文本挖掘的一些技术了,感觉逼格太高了点。
今天我要介绍的一个非常经典而且有效的方法,TF-IDF这个方法十分简单,但是效果显著。词频、逆文档频率(TF-IDF)在自然语言处理中,应用十分广泛,也是提取关键词的常用方法。
主要思想
如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
TF(term frequency) 词频
字面意思,统计每个类别中词的个数。
IDF(inverse document frequency) 逆文档频率
阮一峰文中提到的公式词越常见,分母越大,逆文档频率就越小。为了避免分母为0+1平滑处理。
以下是scikit中的idf 公式:
未平滑 平滑
TF-IDF
TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。值越高,则表示这个词在当前类的文档中更能。
scikit 简单实践
网友评论