TF-IDF简单解析

作者: 一心一意弄算法 | 来源:发表于2018-03-19 09:47 被阅读241次

前言

当你需要要给一大堆的文档提取关键词的时候，如果能够让机器自动提取的话，想必能够省下不少时间，^_。这个问题似乎要涉及到文本挖掘的一些技术了，感觉逼格太高了点。
今天我要介绍的一个非常经典而且有效的方法，TF-IDF这个方法十分简单，但是效果显著。词频、逆文档频率（TF-IDF）在自然语言处理中，应用十分广泛，也是提取关键词的常用方法。

主要思想

如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。

TF(term frequency) 词频

字面意思，统计每个类别中词的个数。

IDF(inverse document frequency) 逆文档频率

阮一峰文中提到的公式

词越常见，分母越大，逆文档频率就越小。为了避免分母为0+1平滑处理。

以下是scikit中的idf 公式：

未平滑

平滑

TF-IDF

TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。值越高，则表示这个词在当前类的文档中更能。

scikit 简单实践

网友评论

本文标题：TF-IDF简单解析

本文链接：https://www.haomeiwen.com/subject/jqditxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！