2020-01-10
杰卡德系数
image.png1 - J(A,B)则被称为杰卡德距离,越大表明两个集合的相似度越小。
TF-IDF + 余弦相似性
- 计算TF(两种参考算法):
- 词频TF = 某个词在文章中出现的次数/文章的总词数
- 词频TF = 某个词在文章中出现的次数/文章中出现的最多的词出现的次数
- 计算IDF:
首先需要有一个语料库,来模拟语言的使用环境。
- IDF = log(语料库的文档总数/包含该词的文档数+1)
词袋模型和LSI模型
词袋
根据语料集,把所有的词都提取出来,编上序号,假设我们的语料集里有100个词,那么每个文章就是一个100维的向量:每个位置上的数字表示对应编号的词在该文章中出现的次数。
LSI
每篇文本中有多个概率分布不同的主题,每个主题中都包含所有已知词,但是这些词在不同主题中的概率分布不同,LSI通过奇异值分解的方法,计算文本中的各个主题的概率分布。这样做的好处是,我们的向量从词的维度下降到文本的主题的维度,维度更少,计算更快。
网友评论