美文网首页
TF-IDF简单解析

TF-IDF简单解析

作者: 一心一意弄算法 | 来源:发表于2018-03-19 09:47 被阅读241次

    前言

    当你需要要给一大堆的文档提取关键词的时候,如果能够让机器自动提取的话,想必能够省下不少时间,_。这个问题似乎要涉及到文本挖掘的一些技术了,感觉逼格太高了点。
    今天我要介绍的一个非常经典而且有效的方法,TF-IDF这个方法十分简单,但是效果显著。词频、逆文档频率(TF-IDF)在自然语言处理中,应用十分广泛,也是提取关键词的常用方法。

    主要思想

    如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。

    TF(term frequency) 词频

    字面意思,统计每个类别中词的个数。

    IDF(inverse document frequency) 逆文档频率

    阮一峰文中提到的公式

    词越常见,分母越大,逆文档频率就越小。为了避免分母为0+1平滑处理。

    以下是scikit中的idf 公式:


    未平滑 平滑

    TF-IDF

    TF-IDF与一个词在文档中的出现次数成正比,与该词在整个语言中的出现次数成反比。值越高,则表示这个词在当前类的文档中更能。

    scikit 简单实践

    相关文章

      网友评论

          本文标题:TF-IDF简单解析

          本文链接:https://www.haomeiwen.com/subject/jqditxtx.html