网页搜索系统:根据数量和质量假设,使用Pagerank算法实现网页搜索项目
传统方法
Originally Use title, use keyword density, manually
问题:not accurate, easily manipulated by human
基本假设
数量假设:更重要的网站更可能获得来自其他网站的链接
质量假设:拥有更高pagerank的网站会传递更高的权重
论文:http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
title-based search/ full-text search
then combine with PageRank to sort
基本步骤
-
基本计算
- 收敛理论
https://projects.ncsu.edu/crsc/reports/ftp/pdf/crsc-tr04-02.pdf
一定会收敛 - 边界情况
- Dead ends
- Spider traps
-
边界处理
当作为一个用户遇到上面两种情况,则会关闭当前页,和打开一个新的页面
-
Workfow
实际过程和代码
-
输入格式
-
计算过程
-
具体细节
key = '1'
value = '2=1/5, 3=1/5, 4=1/5, 5=1/5, 7=1/5, 1'
mapper :
key = '2'
value = '1/5*1'
key = '2'
value = '1/6*1'
reducer:
key = '2'
value = '1/5*1 + 1/6*1'
然后把这个dict写进文件(使用之前的beta公式防止edges cases)就行
网友评论