作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
1.向量相似性推荐
对于基于内容的推荐系统,最简单的推荐算法当然是计算相似性:用户的画像内容表示为稀疏向量,同时内容端也有对应的稀疏向量,在两者之间计算余弦的相似度,根据相似度对推荐物品排序。
如果内容分析做得足够深入,通常效果还不错,而且基于内容的推荐天然有一个特点:可解释性非常强。
2. 检索相似性推荐
如果再进一步,就要更好地利用内容中的结构化信息。一个直观的认识是,不同字段的重要性不同。比如说,在一篇新闻的正文和标题中分析出一个人物名,在评论中也分析出其它用户讨论提及的一些人物名,都可以用于推荐。直观上新闻的正文和标题更重要。那么,我们可以借鉴信息检索中的相关性计算方法来做推荐匹配计算,如BM25F算法。常用的开源搜索引擎,如Lucene中已经实现了经典的BM25F算法,可以直接拿来使用。
有些算法虽然可以做到快速实现、快速上线,但实际上都还不属于学习型算法,因为目标没有最优化,我们做算法要有一种目标思维。
3.学习型算法推荐
如果按照学习型算法都思路该怎么做呢?最典型都场景是提高某种行为都转化率,如点击、收藏、加购等。那么标准都做法是收集这类行为都日志数据,将其转换为训练样本,然后训练预估模型。每一个样本由两部分构成:一部分是特征,包含了用户端的画像内容、物品端的结构化内容,可选都只有日志记录时都一些上下文场景信息,如时间、地理位置、设备等等。另一部分就是用户行为,作为标注信息,包含:“有反馈”和“无反馈”两类。用这样都样本训练一个二分类器时,常用模型是逻辑回归(LR,Logistic Regression) 和梯度提升树(GBDT)或者两者结合。在推荐匹配时,预估用户行为发生都概率,并按照概率排序。这样会更合理、更科学、而且这一条路可以一直迭代优化下去。
作者:HaigLee
https://www.jianshu.com/u/67ec21fb270d
本文由 HaigLee 发布。未经许可,禁止转载。
网友评论