从泰勒公式说起

泰勒公式的作用.png

泰勒公式损失函数存在二阶导数的时候，可以提供参数下降的方向

梯度下降法的泰勒展开理解.png
为什么选择负梯度方向的原因通过泰勒的方式解释一下

牛顿下降法原理.png
使用牛顿下降法来逼近误差的方法，需要二阶可导

引入函数空间这个概念.png
引入函数空间，通过类比的方法来构造新的子树。就是一个更新迭代的一堆树。通过引入一颗新的树来减小误差。

boosting.png
boosting的思想很牛逼，但其实就是一种参数更新的思路，但是这个参数是一个子树。通过生成一颗子树叠加到之前的子树上来减小损失函数。
基分类器是回归树有很多优点：
1.解释性强
2.处理混合特征
3.伸缩不变性（这个不怎么理解）
4.对异常点具有非常好的鲁棒性
5.。。。。
总之，就是解释能力比较好

BOOST Decision Tree.png
首先类似于梯度下降，也有一个学习率
同时求解方法是贪心的

利用梯度产生子树.png
xgboost.png
算法上最大的特点
1.通过二阶导来选择更新方向
2.加入正则项来对构建的树，加入贝叶斯先验。L2正则意味着：先验高斯分布，
L1正则：瑞斯分布

需要最小化的目标函数.png
image.png
正则化的先验解释

误差函数.png
一些列的变换.png
变换2.png
节点数值.png
得出了树的子叶节点的合理的权值，同时，也得出了正确的损失函数。关于第t颗树的。

建树.png
传统的方法都是先建树，在加入正则剪枝。

建树_xgboost.png
这种建树的方式考虑了正则化。