帖子排序算法

作者: 伪开发 | 来源:发表于2018-05-14 22:50 被阅读339次

帖子排序算法
java实现快速排序、归并排序、希尔排序、基数排序算法...
web开发需要知道的几个算法
算法学习(1)-排序算法
经典排序算法总结
前端算法学习-第一篇
七大排序算法之冒泡排序
算法-选择排序
浅谈排序算法
线性排序

一、Hacker News（只有赞成票）

Hacker News排序数学公式

① P 表示帖子的得票数，减去 1 是为了忽略发帖人的投票。
② T 表示距离发帖的时间（单位为小时），加上 2 是为了防止最新的帖子导致分母过小。
③ G 表示"重力因子"（gravityth power），即将帖子排名往下拉的力量，默认值为1.8。

得分趋势表

从上图可以看到，有三个同时发表的帖子，得票分别为 200 票、60票和 30 票（减 1 后为 199、59和 29），分别以黄色、紫色和蓝色表示。在任一个时间点上，都是黄色曲线在最上方，蓝色曲线在最下方。

调整重力因子后的得分趋势表
从上图可以看到，三根曲线的其他参数都一样，G的值分别为1.5、1.8和2.0。G值越大，曲线越陡峭，排名下降得越快，意味着排行榜的更新速度越快。

二、Reddit（赞成票与反对票）

Reddit排序数学公式

① 帖子的新旧程度t = 发贴时间 - 建站时间
② 赞成票与反对票的差x = 赞成票 - 反对票

③ 投票方向y

④ 帖子的受肯定程度z

（一）

这表示，赞成票超过反对票的数量越多，得分越高。前 10 个投票人与后 90 个投票人（乃至再后面 900 个投票人）的权重是一样。
（二）

这个表示，t越大，得分越高。
分母的 45000 秒，等于 12.5 个小时，如果前一天的帖子在第二天还想保持原先的排名，在这一天里面，它得到的净赞成票必须增加 100 倍。y 的作用是用来产生正分和负分。
（三）对于那些有争议的文章（赞成票和反对票非常接近），它们不可能排到前列。

三、Stack Overflow（对问题投赞成或反对，对回复投赞成或反对）

Stack Overflow排序数学公式
① Qviews（问题的浏览次数）

这里使用了以 10 为底的对数，用意是当访问量越来越大，它对得分的影响将不断变小。

② Qscore（问题得分）和 Qanswers（回答的数量）

Qscore（问题得分）= 赞成票-反对票。如果某个问题越受到好评，排名自然应该越靠前。Qanswers 表示回答的数量，代表有多少人参与这个问题。这个值越大，得分将成倍放大。
③ Ascores（回答得分）

"回答"比"问题"更有意义。这一项的得分越高，就代表回答的质量越高。

④ Qage（距离问题发表的时间）和 Qupdated（距离最后一个回答的时间）

随着时间流逝，这两个值都会越变越大，导致分母增大，因此总得分会越来越小。
⑤ Stack Overflow 热点问题的排名，与参与度（Qviews 和 Qanswers）和质量（Qscore 和 Ascores）成正比，与时间（Qage 和 Qupdated）成反比。

四、牛顿冷却定律

牛顿冷却定律数学公式
假定室温H为 0 度，即所有物体最终都会"冷寂"，方程就可以简化为

简化后的牛顿冷却定律
本期温度 = 上一期温度 x exp (-(冷却系数) x 间隔的小时数)
将这个公式用在"排名算法"，就相当于（假定本期没有增加净赞成票）
本期得分 = 上一期得分 x exp (-(冷却系数) x 间隔的小时数)
如果假定一篇新文章的初始分数是 100 分，24小时之后"冷却"为 1 分，那么可以计算得到"冷却系数"约等于0.192。如果你想放慢"热文排名"的更新率，"冷却系数"就取一个较小的值，否则就取一个较大的值。

五、威尔逊区间（不考虑时间因素）

① 错误一
得分 = 赞成票 - 反对票
假定有两个项目，项目A是 60 张赞成票，40张反对票，项目B是 550 张赞成票，450张反对票。请问，谁应该排在前面？按照上面的公式，B会排在前面，因为它的得分（550 - 450 = 100）高于A（60 - 40 = 20）。但是实际上，B的好评率只有 55%（550 / 1000），而A为 60%（60 / 100），所以正确的结果应该是A排在前面。
② 错误二
得分 = 赞成票 / 总票数
　如果"总票数"很大，这种算法其实是对的。问题出在如果"总票数"很少，这时就会出错。假定A有 2 张赞成票、0张反对票，B有 100 张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。

那么，正确的算法是什么呢？
我们先做如下设定：

（1）每个用户的投票都是独立事件。
（2）用户只有两个选择，要么投赞成票，要么投反对票。
（3）如果投票总人数为n，其中赞成票为k，那么赞成票的比例p就等于k/n。

如果你熟悉统计学，可能已经看出来了，p服从一种统计分布，叫做"两项分布"。
p越大，就代表这个项目的好评比例越高，越应该排在前面。但是，p的可信性，取决于有多少人投票，如果样本太小，p就不可信。
p服从"两项分布"，因此我们可以计算出p的置信区间。所谓"置信区间"，就是说，以某个概率而言，p会落在的那个区间。比如，某个产品的好评率是 80%，但是这个值不一定可信。根据统计学，我们只能说，有 95% 的把握可以断定，好评率在 75% 到 85% 之间，即置信区间是[75%， 85%]。
排名算法：

第一步，计算每个项目的"好评率"（即赞成票的比例）。
第二步，计算每个"好评率"的置信区间（以 95% 的概率）。
第三步，根据置信区间的下限值，进行排名。这个值越大，排名就越高。

这样做的原理是，置信区间的宽窄与样本的数量有关。比如，A有 8 张赞成票，2张反对票；B有 80 张赞成票，20张反对票。这两个项目的赞成票比例都是 80%，但是B的置信区间（假定[75%， 85%]）会比A（假定[70%， 90%]）窄得多，因此B的置信区间的下限值（75%）会比A（70%）大，所以B应该排在A前面。
下限值计算公式：

下限值在上面的公式中，

表示样本的"赞成票比例"，

表示样本的大小，

表示对应某个置信水平的z统计量，这是一个常数，可以通过查表或统计软件包得到。一般情况下，在 95% 的置信水平下，z统计量的值为1.96。

六、贝叶斯平均

解决：排行榜前列总是那些票数最多的项目，新项目或者冷门的项目，很难有出头机会，排名可能会长期靠后。
举例来说，一部好莱坞大片有 10000 个观众投票，一部小成本的文艺片只有 100 个观众投票。这两者的投票结果，怎么比较？如果使用"威尔逊区间"，后者的得分将被大幅拉低，这样处理是否公平，能不能反映它们真正的质量？

解决公式

WR，加权得分（weighted rating）。
R，该电影的用户投票的平均得分（Rating）。
v，该电影的投票人数（votes）。
m，排名前 250 名的电影的最低投票数（现在为 3000）。
C，所有电影的平均得分（现在为6.9）。
假设所有电影都至少有 3000 张选票，那么就都具备了进入前 250 名的评选条件；然后假设这 3000 张选票的评分是所有电影的平均得分（即假设这部电影具有平均水准）；最后，用现有的观众投票进行修正，长期来看，v/(v+m)这部分的权重将越来越大，得分将慢慢接近真实情况。
把这个公式写成更一般的形式：

一般形式
C，投票人数扩展的规模，是一个自行设定的常数，与整个网站的总体用户人数有关，可以等于每个项目的平均投票数。
n，该项目的现有投票人数。
x，该项目的每张选票的值。

m，总体平均分，即整个网站所有选票的算术平均值。

"贝叶斯平均"也有缺点，主要问题是它假设用户的投票是正态分布。比如，电影A有 10 个观众评分，5个为五星，5个为一星；电影B也有 10 个观众评分，都给了三星。这两部电影的平均得分（无论是算术平均，还是贝叶斯平均）都是三星，但是电影A可能比电影B更值得看。
　　解决这个问题的思路是，假定每个用户的投票都是独立事件，每次投票只有n个选项可以选择，那么这就服从"多项分布"，就可以结合贝叶斯定理，计算该分布的期望值。

更多详细的解释请到原文地址查看：
https://kb.cnblogs.com/page/135656/