主客观数据集的构建
问题流程及目的
主要流程
将 SA 算法套入到 NCF 模型当中
- SA 算法可以得到以下数据,Active user 与 Subjective user 的相似度
- 取每个 Active user 的相似度接近的 4 个用户,组成一个矩阵,替代 userID
- 取Active user 与 subjective user 的相似度,替代 movieID
- 利用 NCF 模型,得出 N 个用户,之后再进行 SA 算法的处理,得出推荐项目
构建数据集的作用
构建数据集,使该数据集能直接跑 NCF 模型
- 数据集有 3 个,分别为:train (训练集) ,test ( 测试集 ),negative ( 测试集2 )
- 训练集用来套入模型训练,数据格式为:userID,movieID,score
- 测试集用来测试训练的模型,数据格式为:userID,movieID,score
- 测试集 2 用来测试训练模型的指标,数据格式为:(userID,movieID) [ movieID 数组]
疑惑点
- 我想看一电影,朋友的推荐当成是主观意见分,大学生推荐的当成是客观分
- 首先 “朋友” 代指与我(Active user)相似度接近的 4 个用户,主观意见分就是这 4 人的 平均分
- “大学生” 代指 Subjective user,客观分就是 Active user 与 Subjective user 的相似度
- 目前想的是数据集的格式对应
- userID 照旧之前的 userID
- movieID 对照 Subjective user
- score 对照 相似度
- 目前问题就是 “大学生” ,即 Subjective user 的数量太少了,只有1个,而 movieID 的数量是很多的,只能构建 1 个 二维的矩阵
解决方法
尚待思考
网友评论