4.2 基于Jaccard相似系数的相似度计算
Jaccard系数主要用于计算个体间的相似度,个体的特征属性可以通过符号度量或者布尔值标识,所以不能直接通过特征属性的差异进行直接计算,只能通过特征属性是否相似进行比较。
4.2.1 计算流程
(1)分词处理。
(2)将网页1内容对应的词语当作一个集合1,网页2内容对应的词语当作一个集合2……
(3)计算集合之间的交集、并集。
(4)计算交集数量于并集数量的比,其比值为网页之间的相似度衡量标准,该衡量标准的原理即称作Jaccard相似系数。
网友评论