美文网首页
【西瓜书】第8章 集成学习

【西瓜书】第8章 集成学习

作者: 一杭oneline | 来源:发表于2019-06-26 16:36 被阅读0次
    【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习

    GBDT

    GBDT的算法过程:

    GBDT工作过程实例。

    还是年龄预测,简单起见训练集只有4个人,A,B,C,D,他们的年龄分别是14,16,24,26。其中A、B分别是高一和高三学生;C,D分别是应届毕业生和工作两年的员工。如果是用一棵传统的回归决策树来训练,会得到如下图1所示结果:

    现在我们使用GBDT来做这件事,由于数据太少,我们限定叶子节点做多有两个,即每棵树都只有一个分枝,并且限定只学两棵树。我们会得到如下图2所示结果:

    在第一棵树分枝和图1一样,由于A,B年龄较为相近,C,D年龄较为相近,他们被分为两拨,每拨用平均年龄作为预测值。此时计算残差(残差的意思就是: A的预测值 + A的残差 = A的实际值),所以A的残差就是16-15=1(注意,A的预测值是指前面所有树累加的和,这里前面只有一棵树所以直接是15,如果还有树则需要都累加起来作为A的预测值)。进而得到A,B,C,D的残差分别为-1,1,-1,1。然后我们拿残差替代A,B,C,D的原值,到第二棵树去学习,如果我们的预测值和它们的残差相等,则只需把第二棵树的结论累加到第一棵树上就能得到真实年龄了。这里的数据显然是我可以做的,第二棵树只有两个值1和-1,直接分成两个节点。此时所有人的残差都是0,即每个人都得到了真实的预测值。

    换句话说,现在A,B,C,D的预测值都和真实年龄一致了。Perfect!:

    A: 14岁高一学生,购物较少,经常问学长问题;预测年龄A = 15 – 1 = 14

    B: 16岁高三学生;购物较少,经常被学弟问问题;预测年龄B = 15 + 1 = 16

    C: 24岁应届毕业生;购物较多,经常问师兄问题;预测年龄C = 25 – 1 = 24

    D: 26岁工作两年员工;购物较多,经常被师弟问问题;预测年龄D = 25 + 1 = 26

    那么哪里体现了Gradient呢?其实回到第一棵树结束时想一想,无论此时的cost function是什么,是均方差还是均差,只要它以误差作为衡量标准,残差向量(-1, 1, -1, 1)都是它的全局最优方向,这就是Gradient。

    讲到这里我们已经把GBDT最核心的概念、运算过程讲完了!没错就是这么简单。

    摘自  GBDT - HUNXIAOYI561的博客 - CSDN博客

    【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习 【西瓜书】第8章 集成学习

    相关文章

      网友评论

          本文标题:【西瓜书】第8章 集成学习

          本文链接:https://www.haomeiwen.com/subject/jtzccctx.html