词项频率
对文档中的每个词项都赋予了一个权重,它取决于该词项在文档中出现的次数
将权重设置 为 t 在文档中的出现次数。这种权重计算的结果称为词项频率(term frequencey),记为
-
逆文档频率
-
思想:在一个有关汽车工业的文档集中,几乎所有的文档都会包含 auto,此时,auto就没有区 分能力。是给文档集频率[词项在文档集中出现的次数]较高的词项赋予较低的权重
-
:文档频率,出现t的所有文档数
-
:逆文档频率
:所有文档的数目
-
性质:一个罕见词的 idf 往往很高,而高频词的 idf 就可能较低
image
-
-
权重计算
-
t在少数文档中出现,权值最大
t在很多文档中出现/在文档中出现次数很少,权重次之
t在所有文档中出现,权重最小
-
重合度评分指标:文档的得分是所有查询词项在文档中的出现次 数tf之和。当然,我们可以对这种方法进行修正,即不采用tf而采用tf-idf权重求和
-
查询和文档之间的余弦相似度
-
用夹角余弦值代替欧氏距离
-
公式
image
是第i 个词项在查询q中的tf-idf权重
是第i 个词项在文档d中的tf-idf权重
-
举例
- 三部小说的相似度,列出tf
image
-
image
网友评论