美文网首页
文本关键字提取

文本关键字提取

作者: 半大人 | 来源:发表于2019-09-25 19:52 被阅读0次

    TF-IDF 是一种数值统计,用于反映一个词对于语料中某篇文档的重要性。某一特定文件内的高频率词语,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的 TF-IDF

    (1)TF 为词频(Term Frequency),表示词 t 在文档 d 中出现的频率.
    TF=该词出现字数/文章所有词出现次数的总和
    (2)IDF 为逆文档频率,
    IDF=语料库的文件总数/语料库存在词t的文件数
    一般:一个词的TF-IDF=TF*IDF

    TextRank 用于关键词提取的算法如下:

    一个词(节点)的TextRank,所有指向该节点的节点贡献值的总和

    链接数量,一个网页如果被越多的网页所指向,说明这个网页越重要。
    链接质量,一个网页如果被一个很牛逼的网页,权值很高的网页所指向,也可以标明这个网页的权值比较高。

    相关文章

      网友评论

          本文标题:文本关键字提取

          本文链接:https://www.haomeiwen.com/subject/cfewuctx.html