相似度算法是文本基本计算的基础。相似度计算用于帮助开发者发现数据关联性,也是一种基础性计算模型。其核心点在于两个方面:一方面是数据的特征表示,例如如何表示为一个有价值的向量;另一方面是集合之间关系的表示方法。
4.1 应用实例:海量网页相似度分析
判断网页的重复或相似是基于网页标题和网页综合进行分析的,为网页进行相似性分析的目的如下:
(1)防止重复(或被复制、转载)的网页被搜索到。
(2)网页价值分析,越是被转载或复制的网页,其重要性越高。
相似度算法是文本基本计算的基础。相似度计算用于帮助开发者发现数据关联性,也是一种基础性计算模型。其核心点在于两个方面:一方面是数据的特征表示,例如如何表示为一个有价值的向量;另一方面是集合之间关系的表示方法。
判断网页的重复或相似是基于网页标题和网页综合进行分析的,为网页进行相似性分析的目的如下:
(1)防止重复(或被复制、转载)的网页被搜索到。
(2)网页价值分析,越是被转载或复制的网页,其重要性越高。
本文标题:第四章 相似度分析算法——应用实例:海量网页相似度分析
本文链接:https://www.haomeiwen.com/subject/xenqvctx.html
网友评论