PageRank

作者: dreampai | 来源:发表于2021-04-16 10:28 被阅读0次

PageRank

如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高,这就是 PageRank 的核心思想。考虑权重因此,即网页排名高的网站贡献的链接权重大。

image.png
先假定所有网页的排名是相同的,并且根据这个初始值,算出各个网页的第一次迭代排名,然后再根据第一次迭代排名算出第二次的排名。从理论上证明了不论初始值如何选取,这种算法都能保证网页排名的估计值收敛到排名的真实值,这种算法不需要任何人工干预。

两个假设

  • 数量假设:一个页面节点接收到的其他网页指向的入链数量越多,那么这个页面越重要。
  • 质量假设:指向页面A的入链质量不同,质量高的页面会通过链接向其他页面传递更多的权重。所以越是质量高的页面指向页面A,则页面A越重要。

存在问题

  • 孤立网页问题
  • 等级泄露(Rank Leak):如果一个网页没有出链,就像是一个黑洞一样,吸收了其他网页的影响力而不释放,最终会导致其他网页的 PR 值为 0。
  • 等级沉没(Rank Sink):如果一个网页只有出链,没有入链(如下图所示),计算的过程迭代下来,会导致这个网页的 PR 值为 0(也就是不存在公式中的 V)。

PageRank 的随机浏览模型

未解决孤立网页,增加阻尼系数,一般为 0.85 在任意时刻,用户到达某页面后并继续向后浏览的概率

为了解决简化模型中存在的等级泄露和等级沉没的问题,拉里·佩奇提出了 PageRank 的随机浏览模型。他假设了这样一个场景:用户并不都是按照跳转链接的方式来上网,还有一种可能是不论当前处于哪个页面,都有概率访问到其他任意的页面,比如说用户就是要直接输入网址访问其他页面,虽然这个概率比较小。

定义了阻尼因子 d,这个因子代表了用户按照跳转链接来上网的概率,通常可以取一个固定值 0.85,而 1-d=0.15 则代表了用户不是通过跳转链接的方式来访问网页的

参考链接

相关文章

  • Pagerank算法

    一. Pagerank介绍PageRank算法以前就是Google的网页排序算法。PageRank算法,对每个目标...

  • 常用图算法实现--Hadoop

    PageRank 数据准备 边: 网页: 将这两个文件放入HDFS: 编写程序 PageRank PageRank...

  • 网新关键词4-6章

    互联网精神 开放、平等、协作、快速、分享 google pagerank PageRank,网页排名,又称网页级别...

  • PageRank

    PageRank: 以谷歌佩奇命名的一种算法,被引用次数最多的网站搜索时排名靠前

  • pagerank

    PageRank 算法计算每一个网页的 PageRank 值,然后根据这个值的大小对网页的重要性进行排序。它的思想...

  • Pagerank

    巧妙地运用了特征值和特征向量。 一个网页会有很多超链接,比如网页A有3个超链接,那么A就分别有1/3的概率跳到其他...

  • pagerank

    1. 直观理解 1.1 基本思想 PageRank是以Google创始人Larry Page的姓命名的,于1999...

  • PageRank

    PageRank 如果一个网页被很多其他网页所链接,说明它受到普遍的承认和信赖,那么它的排名就高,这就是 Page...

  • Rank

    soure code 一:Pagerank:PageRank是Google用于衡量特定网页相对于搜索引擎索引中的其...

  • TextRank学习笔记

    TextRank起源与PageRank TextRank的灵感来源于大名鼎鼎的PageRank算法,这是一个用作网...

网友评论

      本文标题:PageRank

      本文链接:https://www.haomeiwen.com/subject/dlnslltx.html