美文网首页
142.如何个性化推荐系统设计-2

142.如何个性化推荐系统设计-2

作者: 大勇任卷舒 | 来源:发表于2022-11-24 09:37 被阅读0次

142.1 离线训练

  • 离线训练流程


  • 如何线上实时反馈特征?
    • 在线计算,与曝光日志一起上报,离线直接使用
  • 如何解决曝光不足问题?
    • 使用CTR的贝叶斯平滑(CTR = 曝光次数 / 点击次数)
      • 所有新闻自身CTR(r)服从Beta分布:


      • 某一新闻,给定展示次数时和自身CTR,点击次数服从伯努利分布,曝光次数为I,点击次数为C:


      • 对最大似然函数求解参数α,β,则i新闻CTR后验估计:


      • 对曝光不足的做平滑,曝光充分的影响不大

142.2 用户画像

  • 用户标签
  • 统计方法
    • 用户feeds内行为,标签 计数(点击率),缺点:无法加入更多特征,不方便后续优化
  • 基于机器学习的方法
    • 对用户长期兴趣建模
    • LR模型
    • 用户标签作为特征

142.3 GBDT粗排

  • 为什么需要粗排?
    • 快速筛选高质量的候选集
    • 方便利用在线实时反馈特征
  • 如何做粗排的特征设计?
    • 特征要相对稠密
  • 如何选择合适的算法模型?
    • lightgbm
    • xgboost
    • lightgbm比xgboot速度更快;在线预测时,线程更安全

142.4 在线FM精排

  • 为什么需要在线学习?
    • feeds内容更新快
    • 用户兴趣会随时间变化
    • 排序模型需要快速反应用户的兴趣变化
  • FM模型
  • 采用FTRL(Follow The Regularized Leader)更新模型
  • 算法概述
    • FTRL是一种适用于处理超大规模数据的,含大量稀疏特征的在线学习的常见优化算法,方便实用,而且效果很好,常用于更新在线的CTR预估模型。
    • FTRL算法兼顾了FOBOS和RDA两种算法的优势,既能同FOBOS保证比较高的精度,又能在损失一定精度的情况下产生更好的稀疏性。
    • FTRL在处理带非光滑正则项(如L1正则)的凸优化问题上表现非常出色,不仅可以通过L1正则控制模型的稀疏度,而且收敛速度快。
  • 算法要点与推导


  • 算法特性及优缺点
    • 在线学习,实时性高;可以处理大规模稀疏数据;有大规模模型参数训练能力;根据不同的特征特征学习率 。
  • FTRL-Proximal工程实现上的tricks:

1.saving memory

    方案1)Poisson Inclusion:对某一维度特征所来的训练样本,以p的概率接受并更新模型。
    方案2)Bloom Filter Inclusion:用bloom filter从概率上做某一特征出现k次才更新。

2.浮点数重新编码

    1)特征权重不需要用32bit或64bit的浮点数存储,存储浪费空间。
    2)16bit encoding,但是要注意处理rounding技术对regret带来的影响(注:python可以尝试用numpy.float16格式)

3.训练若干相似model

    1)对同一份训练数据序列,同时训练多个相似的model。
    2)这些model有各自独享的一些feature,也有一些共享的feature。
    3)出发点:有的特征维度可以是各个模型独享的,而有的各个模型共享的特征,可以用同样的数据训练。

4.Single Value Structure

    1)多个model公用一个feature存储(例如放到cbase或redis中),各个model都更新这个共有的feature结构。
    2)对于某一个model,对于他所训练的特征向量的某一维,直接计算一个迭代结果并与旧值做一个平均。

5.使用正负样本的数目来计算梯度的和(所有的model具有同样的N和P)



6.subsampling Training Data

  1)在实际中,CTR远小于50%,所以正样本更加有价值。通过对训练数据集进行subsampling,可以大大减小训练数据集的大小。
  2)正样本全部采(至少有一个广告被点击的query数据),负样本使用一个比例r采样(完全没有广告被点击的query数据)。但是直接在这种采样上进行训练,会导致比较大的biased prediction。
  3)解决办法:训练的时候,对样本再乘一个权重。权重直接乘到loss上面,从而梯度也会乘以这个权重。
  • 适合场景
    • 点击率模型
  • 如何选择精排特征?
    • 新增特征需保证已有特征索引不变
    • 定期离线训练淘汰无用特征,防止特征无线膨胀
    • 使用GBDT粗排预测的CTR分段结果作为特征

大数据视频推荐:
网易云课堂
CSDN
人工智能算法竞赛实战
AIops智能运维机器学习算法实战
ELK7 stack开发运维实战
PySpark机器学习从入门到精通
AIOps智能运维实战
腾讯课堂
大数据语音推荐:
ELK7 stack开发运维
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通

相关文章

  • 142.如何个性化推荐系统设计-2

    142.1 离线训练 离线训练流程 如何线上实时反馈特征?在线计算,与曝光日志一起上报,离线直接使用 如何解决曝光...

  • 推荐系统简介

    本文主讲:1.推荐系统应用场景2.如何评测一个推荐系统的好坏 1.个性化推荐系统--应用实例 2.评测一个推荐系统...

  • 召回

    1.推荐系统的召回2.如何理解推荐系统召回模型中的召回3.推荐系统从0到1[二]:个性化召回4.推荐系统二---召...

  • 《推荐系统实践》第三章学习笔记

      本章主要讲的是推荐系统冷启动问题。冷启动问题,就是如何在没有数据的情况下设计个性化推荐系统,让用户对推荐结果满...

  • 推荐系统实践学习系列(一)好的推荐系统

    主要学习内容: 1、什么是推荐系统 2、个性化推荐系统的应用 3 、推荐系统评测指标 4、 推荐系统评测 一:什么...

  • 【推荐系统实践-01】推荐系统简介

    项亮老师的《推荐系统实践》学习笔记​。​ 目录 1、什么是推荐系统 2、个性化推荐系统应用场景 3、推荐系统评测推...

  • 快速了解冷启动

    1.什么是冷启动? 产品刚诞生的时候,没有用户数据,如何设计个性化推荐系统让用户对推荐结果满意,从而愿意使用推荐系...

  • 推荐系统

    用Mapreduce实现推荐系统 提纲 什么是推荐系统 如何设计一个推荐系统 mapreduce实现推荐系统 什么...

  • 推荐系统理论(三) -- 冷启动问题

    本章的思维导图如下: 1、冷启动问题简介 如何在没有大量用户数据的情况下设计个性化推荐系统并且让用户对推荐结果满意...

  • 电商推荐系统

    推荐系统 1、推荐系统的含义 推荐系统包含系统推荐和个性化推荐,系统推荐是根据大众行为的推荐引擎,对每个用户都给出...

网友评论

      本文标题:142.如何个性化推荐系统设计-2

      本文链接:https://www.haomeiwen.com/subject/aigtfdtx.html