作者以及单位
Walid Krichene 和 rendle(google),值得一提是这个rendle似乎和何向南的NCF杠上了。
下载:http://walid.krichene.net/papers/KDD-sampled-metrics.pdf
解决问题
项目推荐(item recommendation)任务需要根据给定的条件对大型项目目录进行排序。项目推荐算法是使用依赖于相关项目位置的排名度量指标来评估的。为了加快度量指标的计算,近来的一些研究经常使用抽样的度量指标(sampled metrics),仅对较小的一组随机项和相关项进行排序(python里面直接调 ncdg等方法抽样)。Google 研究小组对这些抽样指标进行了更详细的研究,结果表明它们与其 exact version 不一致。也就是说,它们没有保持 relative statements。
核心解决的问题是:作者提出校准方法,提高了预测准度偏差。We show that it is possible to improve the quality of the sampled metrics by applying a correction, obtained by minimizing different criteria such as bias or mean squared error. **
简单的说,就是对原有的指标进行变形 corrected variants,提高估计质量 improve the quality of the estimate。
研究对象
研究的metrics对象包括:AUC, Prec,Recall,AP和NDCG。这4个参数基本上是推荐系统必须测试的4个值。
在同一个数据集下,以50,200和500来看,ABC推荐者的AP,NDCG,Recall都不一样,除了AUC是一样的。

研究方法
把数据集10000个(左边,可看为全部数据集)和100个(右边,可看为抽样)对应的AUC, Prec,Recall,AP和NDCG进行对比。除了AUC,其他的指标都是头重脚轻(top heavy),因为大家一般都看前面的结果。

通过修改了评价指标的表达后数据集10000个和100个对比图。(我怀疑这个地方作者把右图坐标写错了,图上写的是1000,但是描述写的是10000)

创新点
对于排序评价指标的选择取决于是否位置敏感,即由于用户的注意力有限以及网站或者App有限的展示资源,人们大多比较关心排在头部的物品之间的相对位置,而忽略尾部的项目排序位置,因此对于测试阶段我们需要强调头部效应。
而在训练阶段我们需要尽量打消这样的基于位置的偏见(Position bias),尽可能的还原用户点击该物品是真的处于喜欢,而非仅仅因为排在了头部显眼的位置。
即考察一个优秀的人,不能只在测评的时候观察,要一直保持优秀才行。
文章对几种关于AUC, Prec,Recall,AP和NDCG变种的评价指标的方法(如下,应该是最大创新点),并且都做了对比测试。



从测试结果来看,好像“BV0.1修改方法”结果是最准的( BV 0.1 seems to be the most effective one, getting the correct order on all but one comparison with >90% chance)。

结论
文章我觉得很有新意,原本我也觉得传统的推荐系统中的metrics是有问题,准备着手来设计更改。但是我想的还是小修小补,没有该文作者脑洞大(格局较大)。而且文章写的通俗易懂,看1~2遍就明白了。
核心关键字是BV0.1的指标优化!其实想到这个并不难,试验用的也是常见的movielens的数据集,但对推荐系统的正面影响意义较大,best paper果然不是浪得虚名。
唯一一个问题,未来我如果要做公开数据集的对比,我如果用新的metrics评测指标,别人经典文章还是用旧的(如果又不开源),那么这么比?
论文解读:
http://beta.www.sohu.com/a/415030411_120493035
https://zhuanlan.zhihu.com/p/194314394
网友评论