本文为学习阮一峰《基于用户投票的排名算法》的学习笔记。
一、Hacker News(只有赞成票)
Hacker News排序数学公式① P 表示帖子的得票数,减去 1 是为了忽略发帖人的投票。
② T 表示距离发帖的时间(单位为小时),加上 2 是为了防止最新的帖子导致分母过小。
③ G 表示"重力因子"(gravityth power),即将帖子排名往下拉的力量,默认值为1.8。
得分趋势表
从上图可以看到,有三个同时发表的帖子,得票分别为 200 票、60票和 30 票(减 1 后为 199、59和 29),分别以黄色、紫色和蓝色表示。在任一个时间点上,都是黄色曲线在最上方,蓝色曲线在最下方。
调整重力因子后的得分趋势表
从上图可以看到,三根曲线的其他参数都一样,G的值分别为1.5、1.8和2.0。G值越大,曲线越陡峭,排名下降得越快,意味着排行榜的更新速度越快。
二、Reddit(赞成票与反对票)
Reddit排序数学公式① 帖子的新旧程度t = 发贴时间 - 建站时间
② 赞成票与反对票的差x = 赞成票 - 反对票
④ 帖子的受肯定程度z
(一)
这表示,赞成票超过反对票的数量越多,得分越高。 前 10 个投票人与后 90 个投票人(乃至再后面 900 个投票人)的权重是一样。
(二)
这个表示,t越大,得分越高。
分母的 45000 秒,等于 12.5 个小时,如果前一天的帖子在第二天还想保持原先的排名,在这一天里面,它得到的净赞成票必须增加 100 倍。y 的作用是用来产生正分和负分。
(三)对于那些有争议的文章(赞成票和反对票非常接近),它们不可能排到前列。
三、Stack Overflow(对问题投赞成或反对,对回复投赞成或反对)
Stack Overflow排序数学公式① Qviews(问题的浏览次数)
这里使用了以 10 为底的对数,用意是当访问量越来越大,它对得分的影响将不断变小。
Qscore(问题得分)= 赞成票-反对票。如果某个问题越受到好评,排名自然应该越靠前。Qanswers 表示回答的数量,代表有多少人参与这个问题。这个值越大,得分将成倍放大。
③ Ascores(回答得分)
"回答"比"问题"更有意义。这一项的得分越高,就代表回答的质量越高。
随着时间流逝,这两个值都会越变越大,导致分母增大,因此总得分会越来越小。
⑤ Stack Overflow 热点问题的排名,与参与度(Qviews 和 Qanswers)和质量(Qscore 和 Ascores)成正比,与时间(Qage 和 Qupdated)成反比。
四、牛顿冷却定律
牛顿冷却定律 数学公式假定室温H为 0 度,即所有物体最终都会"冷寂",方程就可以简化为
简化后的牛顿冷却定律
本期温度 = 上一期温度 x exp (-(冷却系数) x 间隔的小时数)
将这个公式用在"排名算法",就相当于(假定本期没有增加净赞成票)
本期得分 = 上一期得分 x exp (-(冷却系数) x 间隔的小时数)
如果假定一篇新文章的初始分数是 100 分,24小时之后"冷却"为 1 分,那么可以计算得到"冷却系数"约等于0.192。如果你想放慢"热文排名"的更新率,"冷却系数"就取一个较小的值,否则就取一个较大的值。
五、威尔逊区间(不考虑时间因素)
① 错误一
得分 = 赞成票 - 反对票
假定有两个项目,项目A是 60 张赞成票,40张反对票,项目B是 550 张赞成票,450张反对票。请问,谁应该排在前面?按照上面的公式,B会排在前面,因为它的得分(550 - 450 = 100)高于A(60 - 40 = 20)。但是实际上,B的好评率只有 55%(550 / 1000),而A为 60%(60 / 100),所以正确的结果应该是A排在前面。
② 错误二
得分 = 赞成票 / 总票数
如果"总票数"很大,这种算法其实是对的。问题出在如果"总票数"很少,这时就会出错。假定A有 2 张赞成票、0张反对票,B有 100 张赞成票、1张反对票。这种算法会使得A排在B前面。这显然错误。
那么,正确的算法是什么呢?
我们先做如下设定:
(1)每个用户的投票都是独立事件。
(2)用户只有两个选择,要么投赞成票,要么投反对票。
(3)如果投票总人数为n,其中赞成票为k,那么赞成票的比例p就等于k/n。
如果你熟悉统计学,可能已经看出来了,p服从一种统计分布,叫做"两项分布"。
p越大,就代表这个项目的好评比例越高,越应该排在前面。但是,p的可信性,取决于有多少人投票,如果样本太小,p就不可信。
p服从"两项分布",因此我们可以计算出p的置信区间。所谓"置信区间",就是说,以某个概率而言,p会落在的那个区间。比如,某个产品的好评率是 80%,但是这个值不一定可信。根据统计学,我们只能说,有 95% 的把握可以断定,好评率在 75% 到 85% 之间,即置信区间是[75%, 85%]。
排名算法:
第一步,计算每个项目的"好评率"(即赞成票的比例)。
第二步,计算每个"好评率"的置信区间(以 95% 的概率)。
第三步,根据置信区间的下限值,进行排名。这个值越大,排名就越高。
这样做的原理是,置信区间的宽窄与样本的数量有关。比如,A有 8 张赞成票,2张反对票;B有 80 张赞成票,20张反对票。这两个项目的赞成票比例都是 80%,但是B的置信区间(假定[75%, 85%])会比A(假定[70%, 90%])窄得多,因此B的置信区间的下限值(75%)会比A(70%)大,所以B应该排在A前面。
下限值计算公式:
下限值 在上面的公式中, 表示样本的"赞成票比例", 表示样本的大小, 表示对应某个置信水平的z统计量,这是一个常数,可以通过查表或统计软件包得到。一般情况下,在 95% 的置信水平下,z统计量的值为1.96。
六、贝叶斯平均
解决:排行榜前列总是那些票数最多的项目,新项目或者冷门的项目,很难有出头机会,排名可能会长期靠后。
举例来说,一部好莱坞大片有 10000 个观众投票,一部小成本的文艺片只有 100 个观众投票。这两者的投票结果,怎么比较?如果使用"威尔逊区间",后者的得分将被大幅拉低,这样处理是否公平,能不能反映它们真正的质量?
解决公式
WR, 加权得分(weighted rating)。
R,该电影的用户投票的平均得分(Rating)。
v,该电影的投票人数(votes)。
m,排名前 250 名的电影的最低投票数(现在为 3000)。
C, 所有电影的平均得分(现在为6.9)。
假设所有电影都至少有 3000 张选票,那么就都具备了进入前 250 名的评选条件;然后假设这 3000 张选票的评分是所有电影的平均得分(即假设这部电影具有平均水准);最后,用现有的观众投票进行修正,长期来看,v/(v+m)这部分的权重将越来越大,得分将慢慢接近真实情况。
把这个公式写成更一般的形式:
一般形式
C,投票人数扩展的规模,是一个自行设定的常数,与整个网站的总体用户人数有关,可以等于每个项目的平均投票数。
n,该项目的现有投票人数。
x,该项目的每张选票的值。
m,总体平均分,即整个网站所有选票的算术平均值。
"贝叶斯平均"也有缺点,主要问题是它假设用户的投票是正态分布。比如,电影A有 10 个观众评分,5个为五星,5个为一星;电影B也有 10 个观众评分,都给了三星。这两部电影的平均得分(无论是算术平均,还是贝叶斯平均)都是三星,但是电影A可能比电影B更值得看。
解决这个问题的思路是,假定每个用户的投票都是独立事件,每次投票只有n个选项可以选择,那么这就服从"多项分布",就可以结合贝叶斯定理,计算该分布的期望值。
更多详细的解释请到原文地址查看:
https://kb.cnblogs.com/page/135656/
网友评论