TF-IDF 算法
- TF 算法是统计一个词在一篇文档中出现的频次,其基本思想是,一个词在文档中出现的次数越多,则对文档的表达能力也就越强。
- IDF 算法则是统计一个词在文档集的多少文档中出现,其基本的思想是,如果一个词在越少的文档中出现,则其对文档的区分能力也就越强。
注意事项
-
词频的归一化
image.png -
IDF 的拉普拉斯平滑
image.png
分母加 1,为了避免有部分新词没有在语料库中出现股而导致分母为零,增强算法的健壮性。
-
TFIDF
image.png
算法优化
考虑每个词的词性
在文本中,名词作为一种定义现实实体的词,带来更多的关键信息,如在关键词提取过程中,对名词赋予更高的权重,能使提取出来的关键词更合理。
考虑出现的位置
在某些场景中,文本的起始段落、末尾段落比起其他部分的文本更重要,如果对出现在这些位置的词赋予更高的权重,也能提高关键词的提取效果。
网友评论