机器学习中的召回、融合、填充、过滤、重排。
融合: 决定召回策略比例并截取物品数形成初步结果集,融合器有加权融合、概率融合、规则融合等等;模型融合:挖掘的工作就是对用户和物品做非常深入的结构化分析,对各个角度的特征都被呈现出来,并且建好索引,供召回阶段使用,大部分挖掘工作都是离线进行的。
召回:因为物品太多,每次给一个用户计算推荐结果时,如果对全部物品挨个计算,那将是一场灾难,取而代之的是用一些手段从全量的物品中筛选出一部分比较靠谱的。
在召回阶段,其实就是各种简单的,复杂的推荐算法,比如说基于内容的推荐,会产生一些推荐结果,比如基于物品的协同过滤会产生一些结果,矩阵分解会产生一些结果,等等。
拿搜索引擎类比,一个道理
比如搜:北京大学
有三个网页被搜索到了:
a. 北京大学保安考上研究生
b. 北京互联网工作招聘
c. 大学生活是什么样的
其中只有a是被正确搜索到的,其他两个其实是和用户搜索词无关,而事实上数据库里还有这种网页:
d. 北大开学季
e. 未名湖的景色
这两个没被搜索到,但d、e和“北京大学”的相关度是超过b、c的,也就是应该被搜索(被召回)到的却没有显示在结果里,即:
召回率 = (a)/ (a + d + e)
总之,每种算法都会产生一些推荐结果,一般同时还附带给每个结果产生一个推荐结果,是各自算法给出来的。不同算法只负责推举出候选结果,真正最终是否推荐给用户,由另一个统一的模型说了算,这个叫做模型的融合。
典型的模型融合:逻辑回归和梯度提升决策树组合
梯度提升决策树GBDT部分请看:https://blog.csdn.net/weixin_41362649/article/details/82803279
填充: 通过一些热门填充、规则填充,在工程上保证物品的数量,通过试投保证保证推荐的新颖度;
1.一种推荐系统中缓解数据稀疏性问题的交叉动态填充方法,其特征在于:包括以下步骤:步骤1,对电商平台数据进行数据预处理;步骤2,建立用户——商品——评分矩阵;步骤3,根据构建的用户信息表和商品信息表,分别计算用户相似性及商品相似性;步骤4,通过用户的相似性、商品的相似性交叉动态填充法对用户——商品——评分矩阵逐步填充。
过滤: 通过用户历史、行为让推荐可以保证不出重复及无状态服务的手段、同时还有负反馈计算;
重排: 通过模型、规则排序,提高点击率的同时保证用户体验。
网友评论