协同过滤
用户一起和网站互动,使得自己的推荐列表不断过滤掉不感兴趣的物品,从而越来越满足自己的要求。
用户行为
用户行为举例
当当网浏览“”数据挖掘导论“, 推荐 “还买过” web数据挖掘
用户行为的提取
从日志中挖掘会话日志-> 记录查询+返回结果+点击。
评分系统:视频的喜欢/不喜欢和豆瓣评论的5级
用户行为的存储
hadoop Hive , Google dremel , hadoop drill
用户行为的特点
用户越活跃,越倾向于冷门物品
协同过滤方法
1- 基于邻域 = 基于用户 基于物品
2- 隐语义模型 latent factor model
3- 基于图的随机游走算法
实验设计: 生成测试集
splitData(data,M,k,seed) :
random.seed(seed)
if random.randint(0,M) == k :
test.append([user,item])
评测方法
准确率 召回率 覆盖率
网友评论