TF
Term frequency 词频
TF(i)=词i在文章中的出现次数,一般进行标准化,即:
TF(i)=词i在文章中的出现次数/文章总词数或文章中出现最多的词的出现次数
IDF
Inverse Document Frequency 逆文档频率
IDF(i)=lg(语料库文档总数/(包含词i的文档数+1))
TF-IDF
TF-IDF=TF*IDF
应用
1.搜索引擎 2.关键词提取 3.文本相似性 4.文本摘要
扩展:TF-IWF
Term frequency 词频
TF(i)=词i在文章中的出现次数,一般进行标准化,即:
TF(i)=词i在文章中的出现次数/文章总词数或文章中出现最多的词的出现次数
Inverse Document Frequency 逆文档频率
IDF(i)=lg(语料库文档总数/(包含词i的文档数+1))
TF-IDF=TF*IDF
1.搜索引擎 2.关键词提取 3.文本相似性 4.文本摘要
扩展:TF-IWF
本文标题:TF-IDF
本文链接:https://www.haomeiwen.com/subject/zdwfnctx.html
网友评论