TF-IDF——关键词提取

作者: dreampai | 来源:发表于2019-04-22 14:04 被阅读1次

    TF-IDF 算法

    • TF 算法是统计一个词在一篇文档中出现的频次,其基本思想是,一个词在文档中出现的次数越多,则对文档的表达能力也就越强。
    • IDF 算法则是统计一个词在文档集的多少文档中出现,其基本的思想是,如果一个词在越少的文档中出现,则其对文档的区分能力也就越强。

    注意事项

    • 词频的归一化


      image.png
    • IDF 的拉普拉斯平滑


      image.png

      分母加 1,为了避免有部分新词没有在语料库中出现股而导致分母为零,增强算法的健壮性。

    • TFIDF


      image.png

    算法优化

    考虑每个词的词性

    在文本中,名词作为一种定义现实实体的词,带来更多的关键信息,如在关键词提取过程中,对名词赋予更高的权重,能使提取出来的关键词更合理。

    考虑出现的位置

    在某些场景中,文本的起始段落、末尾段落比起其他部分的文本更重要,如果对出现在这些位置的词赋予更高的权重,也能提高关键词的提取效果。

    相关文章

      网友评论

        本文标题:TF-IDF——关键词提取

        本文链接:https://www.haomeiwen.com/subject/ageygqtx.html