文本关键字提取

作者: 半大人 | 来源:发表于2019-09-25 19:52 被阅读0次

TF-IDF 是一种数值统计，用于反映一个词对于语料中某篇文档的重要性。某一特定文件内的高频率词语，以及该词语在整个文件集合中的低文件频率，可以产生出高权重的 TF-IDF

（1）TF 为词频（Term Frequency），表示词 t 在文档 d 中出现的频率.
TF=该词出现字数/文章所有词出现次数的总和
（2）IDF 为逆文档频率，
IDF=语料库的文件总数/语料库存在词t的文件数
一般：一个词的TF-IDF=TF*IDF

TextRank 用于关键词提取的算法如下：

一个词（节点）的TextRank，所有指向该节点的节点贡献值的总和

链接数量，一个网页如果被越多的网页所指向，说明这个网页越重要。
链接质量，一个网页如果被一个很牛逼的网页，权值很高的网页所指向，也可以标明这个网页的权值比较高。

本文标题：文本关键字提取

本文链接：https://www.haomeiwen.com/subject/cfewuctx.html

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！