GBDT+LR

作者: YANJINING | 来源:发表于2020-10-30 14:48 被阅读0次

1.本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于Facebook 2014年的论文

2.GBDT+LR 使用最广泛的场景是CTR点击率预估,即预测当给用户推送的广告会不会被用户点击。

点击率预估模型涉及的训练样本一般是上亿级别,样本量大,模型常采用速度较快的LR。但LR是线性模型,学习能力有限,此时特征工程尤其重要。现有的特征工程实验,主要集中在寻找到有区分度的特征、特征组合,折腾一圈未必会带来效果提升。GBDT算法的特点正好可以用来发掘有区分度的特征、特征组合,减少特征工程中人力成本。

3.正如它的名字一样,GBDT+LR 由两部分组成,其中GBDT用来对训练集提取特征作为新的训练输入数据,LR作为新训练输入数据的分类器。

4.有心的同学应该会思考一个问题,既然GBDT可以做新训练样本的构造,那么其它基于树的模型,例如Random Forest以及Xgboost等是并不是也可以按类似的方式来构造新的训练样本呢?没错,所有这些基于树的模型都可以和Logistic Regression分类器组合。至于效果孰优孰劣,我个人觉得效果都还可以,但是之间没有可比性,因为超参数的不同会对模型评估产生较大的影响。

5.现在,我们思考这样一个问题,Logistic Regression是一个线性分类器,也就是说会忽略掉特征与特征之间的关联信息,那么是否可以采用构建新的交叉特征这一特征组合方式从而提高模型的效果?

其次,我们已经了解到GBDT很有可能构造出的新训练数据是高维的稀疏矩阵,而Logistic Regression使用高维稀疏矩阵进行训练,会直接导致计算量过大,特征权值更新缓慢的问题。

针对上面可能出现的问题,使用FM算法代替LR,这样就解决了Logistic Regression的模型表达效果及高维稀疏矩阵的训练开销较大的问题。然而,这样就意味着可以高枕无忧了吗?当然不是,因为采用FM对本来已经是高维稀疏矩阵做完特征交叉后,新的特征维度会更加多,并且由于元素非0即1,新的特征数据可能也会更加稀疏,那么怎么办?

所以,我们需要再次回到GBDT构造新训练数据这里。当GBDT构造完新的训练样本后,我们要做的是对每一个特征做与输出之间的特征重要度评估并筛选出重要程度较高的部分特征,这样,GBDT构造的高维的稀疏矩阵就会减少一部分特征,也就是说得到的稀疏矩阵不再那么高维了。之后,对这些筛选后得到的重要度较高的特征再做FM算法构造交叉项,进而引入非线性特征,继而完成最终分类器的训练数据的构造及模型的训练。

相关文章

  • GBDT+LR

    1.本质上GBDT+LR是一种具有stacking思想的二分类器模型,所以可以用来解决二分类问题。这个方法出自于F...

  • 【排序】GBDT+LR

    问题 1.LR,FM都比较适用高维稀疏特征,GBDT不适用。 解释来源于知乎: 2. 为什么采用GBDT而非RF ...

  • GBDT+LR模型

    1. GBDT+LR简介 协同过滤和矩阵分解存在的劣势就是仅利用了用户与物品相互行为信息进行推荐, 忽视了用户自身...

  • 推荐系统-GBDT+LR 融合

    背景 在CTR预估的早期,使用最多的方法时逻辑回归,逻辑回归通过Sigmoid函数,将函数值映射到0-1区间,映射...

  • Web-Scale Bayesian Click-Through

    自己说 这个是在facebook中的gbdt+lr这篇文章中提到的bopr模型,据说是微软在做内部比赛的时候提出的...

  • 推荐系统-重排序-CTR-DeepFM等DNN模型

    概述 关键词:特征组合LR:缺乏特征组合能力,需人工做特征工程GBDT+LR:特种组合能力不强,对高维的稀疏特征应...

  • CTR预估中GBDT与LR融合方案

    GBDT+LR 使用最广泛的场景是 CTR 点击率预估,即预测当给用户推送的广告会不会被用户点击。 训练样本一般是...

  • GBDT+LR CTR预估-Kaggle实例[有数据集]

    最近读了一篇GBDT+LR实现推荐系统的文章,准备实践一下,但是所有讲这种方式的文章都没有放数据集,所以我从头开始...

  • 坠入深渊的传统之发展——FM、FFM、GBDT+LR

    如果我们将深度学习之前的算法称之为传统算法,那么毫无疑问,回顾这几十年各类算法的发展,基本都是一个从简到繁的过程,...

  • 推荐系统遇上深度学习(十)--GBDT+LR融合方案实战

    欢迎关注天善智能,我们是专注于商业智能BI,人工智能AI,大数据分析与挖掘领域的垂直社区,学习,问答、求职一站式搞...

网友评论

      本文标题:GBDT+LR

      本文链接:https://www.haomeiwen.com/subject/muddvktx.html