美文网首页
JZBigData - PageRank

JZBigData - PageRank

作者: 左心Chris | 来源:发表于2019-11-18 17:16 被阅读0次

    网页搜索系统:根据数量和质量假设,使用Pagerank算法实现网页搜索项目

    传统方法

    Originally Use title, use keyword density, manually
    问题:not accurate, easily manipulated by human

    基本假设

    数量假设:更重要的网站更可能获得来自其他网站的链接
    质量假设:拥有更高pagerank的网站会传递更高的权重
    论文:http://ilpubs.stanford.edu:8090/422/1/1999-66.pdf
    title-based search/ full-text search
    then combine with PageRank to sort

    基本步骤

    实际过程和代码

    • 输入格式



    • 计算过程



    • 具体细节







      key = '1'
      value = '2=1/5, 3=1/5, 4=1/5, 5=1/5, 7=1/5, 1'
      mapper :
      key = '2'
      value = '1/5*1'
      key = '2'
      value = '1/6*1'
      reducer:
      key = '2'
      value = '1/5*1 + 1/6*1'
      然后把这个dict写进文件(使用之前的beta公式防止edges cases)就行

    相关文章

      网友评论

          本文标题:JZBigData - PageRank

          本文链接:https://www.haomeiwen.com/subject/fasbictx.html