美文网首页
tf_idf 使用流程

tf_idf 使用流程

作者: 空无_ae80 | 来源:发表于2020-08-14 17:08 被阅读0次

文本预处理

(1)分句        替换\n

(2)分词        jiabe jiagu,hanlp,pkuseg

(3)取出标点 ,.?"";

(4)取出停用词

tf-idf

(1)词带

(2)tf

第一步,计算词频。

考虑到文章有长短之分,为了便于不同文章的比较,进行"词频"标准化。

或者

第二步,计算逆文档频率。

这时,需要一个语料库(corpus),用来模拟语言的使用环境。

如果一个词越常见,那么分母就越大,逆文档频率就越小越接近0。分母之所以要加1,是为了避免分母为0(即所有文档都不包含该词)。log表示对得到的值取对数。

第三步,计算TF-IDF。

tf_idf的功能

(1) 获得关键词

(2)文本相似性

(3)摘要

(4)文章主题

相关文章

网友评论

      本文标题:tf_idf 使用流程

      本文链接:https://www.haomeiwen.com/subject/uitndktx.html