作者以及单位

Walid Krichene 和 rendle（google），值得一提是这个rendle似乎和何向南的NCF杠上了。
下载：http://walid.krichene.net/papers/KDD-sampled-metrics.pdf

解决问题

项目推荐（item recommendation）任务需要根据给定的条件对大型项目目录进行排序。项目推荐算法是使用依赖于相关项目位置的排名度量指标来评估的。为了加快度量指标的计算，近来的一些研究经常使用抽样的度量指标（sampled metrics），仅对较小的一组随机项和相关项进行排序（python里面直接调 ncdg等方法抽样）。Google 研究小组对这些抽样指标进行了更详细的研究，结果表明它们与其 exact version 不一致。也就是说，它们没有保持 relative statements。
核心解决的问题是：作者提出校准方法，提高了预测准度偏差。We show that it is possible to improve the quality of the sampled metrics by applying a correction, obtained by minimizing different criteria such as bias or mean squared error. **
简单的说，就是对原有的指标进行变形 corrected variants，提高估计质量 improve the quality of the estimate。

研究对象

研究的metrics对象包括：AUC, Prec，Recall，AP和NDCG。这4个参数基本上是推荐系统必须测试的4个值。
在同一个数据集下，以50，200和500来看，ABC推荐者的AP,NDCG,Recall都不一样，除了AUC是一样的。

同一数据集不同数据量的对比

研究方法

把数据集10000个（左边，可看为全部数据集）和100个（右边，可看为抽样）对应的AUC, Prec，Recall，AP和NDCG进行对比。除了AUC，其他的指标都是头重脚轻（top heavy），因为大家一般都看前面的结果。

10000vs100

通过修改了评价指标的表达后数据集10000个和100个对比图。（我怀疑这个地方作者把右图坐标写错了，图上写的是1000，但是描述写的是10000）

10000vs100

创新点

对于排序评价指标的选择取决于是否位置敏感，即由于用户的注意力有限以及网站或者App有限的展示资源，人们大多比较关心排在头部的物品之间的相对位置，而忽略尾部的项目排序位置，因此对于测试阶段我们需要强调头部效应。
而在训练阶段我们需要尽量打消这样的基于位置的偏见（Position bias），尽可能的还原用户点击该物品是真的处于喜欢，而非仅仅因为排在了头部显眼的位置。
即考察一个优秀的人，不能只在测评的时候观察，要一直保持优秀才行。

文章对几种关于AUC, Prec，Recall，AP和NDCG变种的评价指标的方法（如下，应该是最大创新点），并且都做了对比测试。

AUC

Recall

AP

从测试结果来看，好像“BV0.1修改方法”结果是最准的（ BV 0.1 seems to be the most effective one, getting the correct order on all but one comparison with >90% chance）。

BV0.1

结论

文章我觉得很有新意，原本我也觉得传统的推荐系统中的metrics是有问题，准备着手来设计更改。但是我想的还是小修小补，没有该文作者脑洞大（格局较大）。而且文章写的通俗易懂，看1~2遍就明白了。
核心关键字是BV0.1的指标优化！其实想到这个并不难，试验用的也是常见的movielens的数据集，但对推荐系统的正面影响意义较大，best paper果然不是浪得虚名。
唯一一个问题，未来我如果要做公开数据集的对比，我如果用新的metrics评测指标，别人经典文章还是用旧的（如果又不开源），那么这么比？