TF-IDF

作者: 小猪Piglet | 来源:发表于2019-08-01 17:35 被阅读0次

    基于TF-IDF的特征提取技术

    物品画像的特征标签包括比较直接明显的特征,如导演,演员等,也包括比较隐性的特征,如电影简介,图书摘要等。当我们需要提取的特征很那进行量化时,我么就需要考虑使用一些其他技术。如自然语言处理,信息检索等。
    TF-IDF算法便是在NPL领域中比较广泛的一种算法。可以用来提取目标文件,并得到关键词用于计算对于目标文件的权重,并将这些权重组合到一起得到特征向量。
    TF - 词频
    IDF - 逆文档频率
    TF-IDF权重 - wij=TF · IDF
    结论 - TF-IDF值与词语在文档中出现的频率成正比,与该词语在整个文件集中出现的频率成反比。
    Stop Words - 停用词 对文档中心思想表达没有意义的词进行过滤。

    相关文章

      网友评论

          本文标题:TF-IDF

          本文链接:https://www.haomeiwen.com/subject/trjcdctx.html