Collaborative Filtering for Impl

作者: xiiatuuo | 来源:发表于2018-11-04 23:08 被阅读0次

Collaborative Filtering for Impl
Collaborative Filtering for Impl
Collaborative Filtering
Collaborative Filtering
Pre-train with HowNet
协同过滤推荐算法-音乐推荐
推荐系统论文笔记
《Collaborative Filtering with Re
#翻译经典# 基于商品的协同过滤推荐算法 Item-Based
GCN相关代码

论文地址 http://yifanhu.net/PUB/cf.pdf

这篇论文是spark的协同过滤算法隐式反馈方法实现方案的论文。为什么要读？因为在生产过程中发现有同学在用RMSE来衡量spark的协同过滤隐式反馈参数的好坏。

论文的目的是如何利用隐式反馈（观测值没有实锤，没有一个完全可比的）来进行矩阵分解。思路是将观测值转换成0/1预测值和相关的置信度。

什么是隐式反馈

1）没有负面评价；2）天然就带噪声（比如买东西可能只是用来送礼）；3）观测值不能直接表示为兴趣，只能代表置信程度；4）需要有合适的方法来对隐式反馈进行评价，而不能直接用RMSE。

在论文中隐式反馈rui定义为观看show的次数，0.7相当于观看了70%，2相当于观看了两次。

比较的方法

1）最近邻推荐

2）用于显式反馈的SVD算法

对比一下显式反馈和隐式反馈的优化函数

其中，隐式反馈的预测值和置信度分别定义为：

具体的训练过程和算法在这里就不说了，重点在实际的应用中如何使用隐式反馈，以及如果评价算法的效果。

数据集和预处理

电视的用户观看数据，rui自然是观看的时长的比例，由于电视解决的季节性，使用4个星期的数据作为训练数据，接下来的那个星期为测试数据。训练集一共有1.7w的节目和3200w有效的观看。为了让测试得更准确，做了这两件事情：1）去掉了用户在训练集中观看过的数据；2）rui少于0.5的全部置为为0，训练集倒是没做这样的设置。这样，测试机还有200w的非0rui数据，超参数设置为10-8（疑问：为什么这么设置？）

另外一个观察是有很多用户有可能不是在完全认真的观看电视，也许睡着了或者只是出于惯性在继续观看，所以设置了一个momentum effect，这样用来在同一个session中将接下来的观看降权，实验中他们发现通频道第三个观看降低为一半的置信度，第五个没换频道的观看降权99%是一个合理的方式。通过设置超参数a=2，b=6。