Slope One最大优点在于算法很简单, 易于实现, 执行效率高, 同时推荐的准确性相对很高。Slope One来自Daniel Lemire和Anna Machlachlan的论文Slope One Predictors for Online Rating-Based Collaborative Filtering,有需要可以下载看一下。
data:image/s3,"s3://crabby-images/3eeda/3eeda0077c845724ad392c5df2564d120d930708" alt=""
Slope One
其基本的想法来自于简单的一元线性模型 w=f(v)=v+b。已知一组训练点 (vi,wi)ni=1,利用此线性模型最小化预测误差的平方和:
data:image/s3,"s3://crabby-images/ac38e/ac38e76c82b57df6d47ae878396248c349726adf" alt=""
利用上式获得了b的取值后,对于新的数据点vnew,我们可以利用 wnew=b+vnew 获得它的预测值。直观上我们可以把上面求偏移 b 的公式理解为 wi 和 vi 差值的平均值。
data:image/s3,"s3://crabby-images/5b36e/5b36e0ac1fc4dae648d8449cdda59602ab1fdfc0" alt=""
上图所示,定义item i 相对于 item j 的平均偏差:
data:image/s3,"s3://crabby-images/2f6d0/2f6d0afea4627b7109c49b1e018fbf5641ac4971" alt=""
其中 Sj,i() 表示同时对item i 和 j 给予了评分的用户集合,而 card() 表示集合包含的元素数量。有了上面的定义后,我们可以使用
data:image/s3,"s3://crabby-images/d6d1e/d6d1e8cc36dfa2cc385b791394740c9173e72f65" alt=""
获得用户 u 对 item j 的预测值。当把所有这种可能的预测平均起来,可以得到:
data:image/s3,"s3://crabby-images/c30ec/c30ec9dab7d0d01c0d2b6a59a44ddbb52ecb33e4" alt=""
其中 Rj 表示所有用户 u 已经给予评分且满足条件 (i≠j 且 Sj,i非空) 的item集合。对于足够稠密的数据集,我们可以使用近似
data:image/s3,"s3://crabby-images/014c9/014c933b16ec08b1ee721076039ecc8f20253abc" alt=""
把上面的预测公式简化为
data:image/s3,"s3://crabby-images/9362b/9362b0a4e25fc462077520407b0e5424a09ee1ce" alt=""
Weighted Slope One
Slope One中在计算 item i 相对于 item j 的平均偏差 devj,i 时没有考虑到使用不同的用户数量平均得到的devj,i,其可信度不同。假设有 2000 个用户同时评分了 item j 和 k,而只有20 个用户同时评分了 item j和 l,那么显然获得的 devj,k 比 devj,l 更具有说服力。所以一个修正是对最终的平均使用加权:
data:image/s3,"s3://crabby-images/ba48a/ba48ac868bd0784226d88eb9cbe0c245505f232c" alt=""
data:image/s3,"s3://crabby-images/47f8c/47f8cfb53713341a22473b2bb38c280bf10625bc" alt=""
【转载】推荐算法-slope one
网友评论