美文网首页
推荐系统小记

推荐系统小记

作者: wantRich | 来源:发表于2020-08-05 20:20 被阅读0次

数据

对于推荐系统甚至所有的机器学习模型,数据都是特别重要的,包括数据的分布,大小。

线上训练数据的产生

线上推荐系统的训练数据主要由两部分产生,一部分提供用户的feature,一部分提供用户的action,这个是需要一个时间窗口的,时间窗口过短,我们会失去很多正样本,时间窗口过长,会导致训练数据不那么freash,从而导致了模型学不到最新的信息。

真实的数据分布

线上的数据中往往负样本的数量远远多于正样本的数量,如果直接使用的原来的数据,可能回使模型倾向于生成负判断。此时我们需要负采样和过采样,一般公司常用的是负采样,采样比列可以制定为1:10,当然这会造成数据的bias问题,比如在ctr预估时,会使得ctr的值过高。此时我们一般会对结果进行bais纠偏。

特征

    构建一个好的模型特征无疑是非常重要的一部分,目前大型公司都会将特征embedding化,然后送往深度学习的模型中去学习,很少去做一些特征工程的工作,一个是因为大公司的数据量比较大,可以将embedding训练的很好,这比人工去定义特征是好很多的,当然一些必要的简单工作也是要做的,比如对于特征进行特征淘汰从而保证模型不至于过大,限定特征作为embedding的最少出现次数(实际的效果线上其实是比较存疑的,因为训练了总比不训练好)。

特征分类大概可以分为以下几类:

    用户特征

    物品特征

    用户与物品的交互特征

模型

    模型的进步。最开始各大公司用的lr模型,简单线性可解释,到后面复杂些的FM、FFM DEEPFM模型再到后面的cross 、autoincoder模型比较重要的点主要是以下几个把

    batch normalization

    embedding 预训练可以加快训练速度

    梯度裁减

    对于dense feature可以进行梯度drop,大大加快训练速度

    多目标训练loss差异不要过大(比如不要把时长模型和分类模型一起训练)

    对于较大型的应用,其训练的embedding可以引入到较小app中,提供额外信息 

    使用relu激活函数,但要注意避免神经元死亡

目标的确定

目标的实际含义,比如在视频推荐中(时长,pct和 finish)

评价标准

线下指标

    training阶段和serving阶段的auc和calibration

线上指标

    留存,时长,动作率

非模型步骤

    打散、规则过滤、强插

    打散:避免同一类型的物品出的太多

    规则过滤:可以尝试用模型替代

    强插:插播一些非常重要的信息,一般不使用

    我们的原则一般是能不用规则就不用规则,比如我们发现女性用户总是对衣服类视频有很大的偏好,这时候正确的做法是什么呢,是对对女性用户boost这类信息吗,不是的,最合适的做法加入性别特征,模型会根据item的id embdding和性别信息学到这些有用的信息。



相关文章

  • 推荐系统小记

    数据 对于推荐系统甚至所有的机器学习模型,数据都是特别重要的,包括数据的分布,大小。 线上训练数据的产生 线上推荐...

  • 2020 推荐系统入门 (1)

    推荐系统 推荐系统概观 什么是推荐系统 那么什么是推荐系统,推荐系统做了那些工作呢?其实推荐系统就是根据用户的历史...

  • 电商推荐系统

    推荐系统 1、推荐系统的含义 推荐系统包含系统推荐和个性化推荐,系统推荐是根据大众行为的推荐引擎,对每个用户都给出...

  • 推荐系统架构-1 推荐系统

    目录 一、推荐系统 1、推荐系统介绍 1.1 什么是推荐系统 1.2 推荐方法 1.3 推荐系统的应用 1.4 评...

  • 推荐系统

    用Mapreduce实现推荐系统 提纲 什么是推荐系统 如何设计一个推荐系统 mapreduce实现推荐系统 什么...

  • 推荐系统基础

    推荐系统基础 个性化推荐概述 1.1 推荐系统概述 首先,需要申明一点的就是推荐系统!=推荐算法。推荐系统是一套完...

  • 推荐系统

    推荐系统基础 推荐系统简介 了解推荐相关常用概念 知道推荐系统的工程架构和算法架构 知道推荐系统的常用算法 知道协...

  • 第一届鲁迅文学奖作品 | 权威书单

    No.1 听史铁生讲生命故事:老屋小记 作者:史铁生 著 推荐理由: 央视“朗读者”栏目推荐图书,徐静蕾动情朗诵《...

  • 文章推荐系统 | 五、计算文章相似度

    推荐阅读:文章推荐系统 | 一、推荐流程设计文章推荐系统 | 二、同步业务数据文章推荐系统 | 三、收集用户行为数...

  • 文章推荐系统 | 八、基于模型的离线召回

    推荐阅读:文章推荐系统 | 一、推荐流程设计文章推荐系统 | 二、同步业务数据文章推荐系统 | 三、收集用户行为数...

网友评论

      本文标题:推荐系统小记

      本文链接:https://www.haomeiwen.com/subject/ejdigftx.html