美文网首页
第四章 相似度分析算法——应用实例:海量网页相似度分析

第四章 相似度分析算法——应用实例:海量网页相似度分析

作者: 文颜 | 来源:发表于2019-10-22 16:27 被阅读0次

    相似度算法是文本基本计算的基础。相似度计算用于帮助开发者发现数据关联性,也是一种基础性计算模型。其核心点在于两个方面:一方面是数据的特征表示,例如如何表示为一个有价值的向量;另一方面是集合之间关系的表示方法。

    4.1 应用实例:海量网页相似度分析

    判断网页的重复或相似是基于网页标题和网页综合进行分析的,为网页进行相似性分析的目的如下:

    (1)防止重复(或被复制、转载)的网页被搜索到。

    (2)网页价值分析,越是被转载或复制的网页,其重要性越高。

    相关文章

      网友评论

          本文标题:第四章 相似度分析算法——应用实例:海量网页相似度分析

          本文链接:https://www.haomeiwen.com/subject/xenqvctx.html