查一些参考资料,摘录一些感觉以后会用到的部分
PageRank
- 该算法基于“从许多优质的网页链接过来的网页,必定还是优质网页”的回归关系,认为从网页A导向网页B的链接可以看作是页面A对页面B的支持投票
- PageRank是基于对“使用复杂的算法而得到的链接构造” 的分析,从而得出的各网页本身的特性。即通过反向链接的数量和质量来确定搜索结果的排序权重
- 优点:算法可以离线完成,响应速度快用户体验好一点
- 弊端: 不能避开网页中的无效链接,广告什么的;旧页面总是比新页面rank高
Hilltop
- 谷歌工程师提出
- 在<em>通过反向链接的数量和质量来确定搜索结果的排序权重</em>基础上主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高
- 即先按主题分类,在执行pagerank方法,或是给主题,pagerank各分配权重再rank
- 优点:降低时间复杂度,可以缩小每次计算rank的规模
- 缺点:两个页面互相依赖,互相给高分,会引起评分的不正常增加。产生垃圾链接
Direct Hit
- 注重信息的质量和用户反馈
*具体是:搜索引擎将查询的结果返回给用户,并跟踪用户在检索结果中的点击。如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回点击其它的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性。另一方面,如果网页被用户点击打开进行浏览,并且浏览的时间较长,那么该网页的受欢迎程度就高,相应地,系统将增加该网页的相关度(动态排序) - 优点:能够节省大量时间,因为用户阅读的是从搜索结果中筛选出来的更加符合要求的结果。同时,这种算法直接融入用户的反馈信息,能够保证页面的质量。
- 缺点:只适合于检索关键词较少的情况,因为它实际上并没有进行排序,而是一种筛选和抽取,在检索数据库很大、关键词很多的时候,返回的搜索结果成千上万,用户不可能一一审阅(所以可以当做辅助排序方法)
网友评论