美文网首页
第四章 相似度分析算法——基于Jaccard相似系数的相似度计算

第四章 相似度分析算法——基于Jaccard相似系数的相似度计算

作者: 文颜 | 来源:发表于2019-10-22 16:42 被阅读0次

    4.2 基于Jaccard相似系数的相似度计算

    Jaccard系数主要用于计算个体间的相似度,个体的特征属性可以通过符号度量或者布尔值标识,所以不能直接通过特征属性的差异进行直接计算,只能通过特征属性是否相似进行比较。

    4.2.1 计算流程

    (1)分词处理。

    (2)将网页1内容对应的词语当作一个集合1,网页2内容对应的词语当作一个集合2……

    (3)计算集合之间的交集、并集。

    (4)计算交集数量于并集数量的比,其比值为网页之间的相似度衡量标准,该衡量标准的原理即称作Jaccard相似系数。

    4.2.2 侠义Jaccard相似系数

    4.2.2 广义Jaccard相似系数

    相关文章

      网友评论

          本文标题:第四章 相似度分析算法——基于Jaccard相似系数的相似度计算

          本文链接:https://www.haomeiwen.com/subject/zcoqvctx.html