从泰勒公式说起
泰勒公式的作用.png-
泰勒公式损失函数存在二阶导数的时候,可以提供参数下降的方向
梯度下降法的泰勒展开理解.png -
为什么选择负梯度方向的原因通过泰勒的方式解释一下
牛顿下降法原理.png -
使用牛顿下降法来逼近误差的方法,需要二阶可导
引入函数空间这个概念.png -
引入函数空间,通过类比的方法来构造新的子树。就是一个更新迭代的一堆树。通过引入一颗新的树来减小误差。
boosting.png - boosting的思想很牛逼,但其实就是一种参数更新的思路,但是这个参数是一个子树。通过生成一颗子树叠加到之前的子树上来减小损失函数。
-
基分类器是回归树有很多优点:
1.解释性强
2.处理混合特征
3.伸缩不变性(这个不怎么理解)
4.对异常点具有非常好的鲁棒性
5.。。。。
总之,就是解释能力比较好
BOOST Decision Tree.png - 首先类似于梯度下降,也有一个学习率
-
同时求解方法是贪心的
利用梯度产生子树.png
xgboost.png -
算法上最大的特点
1.通过二阶导来选择更新方向
2.加入正则项来对构建的树,加入贝叶斯先验。L2正则意味着:先验高斯分布,
L1正则:瑞斯分布
需要最小化的目标函数.png
image.png -
正则化的先验解释
误差函数.png
一些列的变换.png
变换2.png
节点数值.png -
得出了树的子叶节点的合理的权值,同时,也得出了正确的损失函数。关于第t颗树的。
建树.png -
传统的方法都是先建树,在加入正则剪枝。
建树_xgboost.png - 这种建树的方式考虑了正则化。
网友评论