美文网首页
理解TF - IDF

理解TF - IDF

作者: ruihan_xia | 来源:发表于2018-06-15 11:26 被阅读0次

    Q1: TF - IDF的全称是什么,为什么是这个名字?
    全称: 词频 - 逆文档频率(term frequency - inverse document frequency)
    其中:

    • 词频(term frequency) 某个词在这篇文档中,所占的频率
    • 逆文档频率(inverse document frequency) log(所有文档 / 出现这个词的文档). 注意这个值是正数,所以有一个"逆"

    Q2:最终的排序机制是什么
    TF - IDF = TF * IDF
    得到权重,进行排序

    Q3:优缺点是什么
    优点 : 容易理解
    缺点 : 对所有词一视同仁,一般来说,文末的词的权重更高,但是无法调整.

    相关文章

      网友评论

          本文标题:理解TF - IDF

          本文链接:https://www.haomeiwen.com/subject/pospeftx.html