美文网首页
xgboost tree

xgboost tree

作者: 天禧68 | 来源:发表于2018-12-13 19:47 被阅读0次

    前言

    Boosted Tree是数据挖掘和机器学习中国最常用的算法那之一。

    • 对于输入数据不敏感 -->是统计学家到数据科学家必备工具之一
    • 计算复杂度不高 --> 也在工业界中有大量应用

    Boost额度 Tree起源

    GBDT,GBRT(gradient boosted regression tree),MART,LambdaMART也是一种boosted tree的变种。
    其中最早的一篇文章是:Friedman写于1999年的文章:Greedy Function Approximation:A Gradient Boosting Machine

    有监督学习算法的逻辑组成

    回归树介绍

    回归树,也叫做分类与回归树,认为就是一个叶子节点具有权重的二叉决策树,它具有以下两个特点:

    • 决策规则与决策树一样
    • 每个叶子节点上都包含了一个权重,也有人叫做分数
      回归树有以下四个有点:
    1. 使用范围广,像GBM、随机森林等。(竞赛优胜者一半都有用)
    2. 对于输入范围不敏感,所以不需要对输入归一化
    3. 能学习特征之间更高级别的相互关系
    4. 很容易对其扩展

    GBDT算法原理

    GBDT算法原理与系统设计简介_pdf链接

    泰勒公式

    泰勒公式是一个用函数在某点信息描述其附近值的公式。(局部有效性)

    image.png
    梯度下降法(Gradient Descend Method)

    求最小化损失函数L,解决一阶泰勒展开式问题

    牛顿法(Newton's Method)

    解决二阶泰勒公式展开项问题


    image.png image.png
    目标函数
    image.png

    square loss:方差
    logloss:逻辑回归(对数几率回归)

    正则项
    image.png

    正则项对每课回归树的复杂度进行惩罚

    相比原始的GBDT,XGBoost的目标函数多了正则项,使得学习出来的模型更加不容易过拟合。

    杂记

    bias由训练误差控制
    variance由正则项控制

    方法=模型+策略+算法

    相关文章

      网友评论

          本文标题:xgboost tree

          本文链接:https://www.haomeiwen.com/subject/jqkphqtx.html