2020机器学习GBDT 分类问题(2)

作者: zidea | 来源:发表于2020-03-24 19:46 被阅读0次

2020机器学习GBDT 分类问题(2)
2020机器学习GBDT 分类问题(1)
2020机器学习GBDT(2)
决策树之 GBDT 算法 - 分类部分
GBDT原理最通俗的解释
2020机器学习GBDT(1)
Coursera台大机器学习基础课程学习笔记2 -- 机器学习的
Kaggle竞赛：Titanic - A Data Scienc
【机器学习】分类问题
GBDT原理分析以及XGBoost代码实践

machine_learning.jpg

现在我们通过一系列的推导得出 0.69 是如何得到，为什么将 0.69 作为模型初始化的参数。或者说我们创建叶节点可以给出每个样本的喜欢美国队长2的预测值 0.69

到现在为止我们已经完成第一步,从第二步开始我们将创建决策树来拟合残差，不断提升模型达到我们预期效果，第二步是一个迭代的过程，每一次迭代都会得到一颗决策树

第 2 步

计算
- $-\left[ \frac{\partial L(y_i,F(x_i))}{\partial F(x_i)}\right]_{F(x) = F_{m-1}(x)}$ 看起来有点复杂，其实就是一个损失函数的导数，前面我们已经推导出损失函数导数
- $\frac{d}{d \log(odds)} = -Observed \times \log(odds) + \log (1 + e^{\log(odds)})$ 就是对数几率表示损失函数的导数
- 不过需要注意前面有一个符号表示负梯度是下降的方向。
  $计算残差表达式(Observed -c)$
- 因为 $p = -\left[ \frac{\partial L(y_i,F(x_i))}{\partial F(x_i)}\right]_{F(x) = F_{m-1}(x)}$ 那么可以就可以将表达式修改为 $Observed - p$
- $F(x) = F_{m-1(x)}$ 表示 $F(x)$ 就是上一颗决策树，这里我们初始 $F_0(x) = \log(\frac{2}{1}) = 0.69$
- 现在可以计算通过 $Observed - 0.67$ 来计算每一个样本 $r_{i,m}$ 的伪残差，i 表示第 i 样本，m 表示我们构建的第 m 颗决策树

Likes Popcorn	Age	Favorite Color	American Caption	$r_{i,1}$
Yes	12	Blue	Yes	0.33
Yes	87	Green	Yes	0.33
No	44	Blue	No	-0.67

到现在为止我们完成对每一决策树计算其伪残差的运算。

创建决策树来拟合残差，决策树会节点对数据进行划分区域
- 构建地 1 颗决策树 m = 1 根据是否 popCorn 来进行划分
- likes Popcorn
  - [0.33]
  - [0.33,-0.7]
- 这里决策树将数据(根据叶节点)划分为两个区域分别 $R_{1,1}$ 和 $R_{2,1}$ ,前一个 j 表示 m 决策树划分第 j 个区域。
- 现在根据决策树来计算每一个叶节点的输出，每一个
对于每一个叶节点划分区域计算残差的最小
- 这里输出值就是在 $\gamma$ 让损失函数的和最小
- $x_i \in R_{ij}$ 表示残差区域(也就是决策树叶节点)划分出的区域
- $\gamma_{1,1} = \arg \min_{\gamma} \sum_{x_i \in R_{ij}} -y_i \times \left[ F_{m-1}(x_i) + \gamma \right] + \log (1 + e^{F_{m-1}(x_i) + \gamma})$
  $-Observed \times \gamma + \log(1 + e^{\gamma}) \, for\,\gamma = \log(odds)$
  因为 $R_{1,1}$ 中只有一条数据s
更新 $F_m(x) = F_{m-1}(x) + \nu \sum_{j=1}^{J_m} \gamma_m I(x \in R_{jm})$

最后希望大家关注我们微信公众号

wechat.jpeg

2020机器学习GBDT 分类问题(2)
现在我们通过一系列的推导得出 0.69 是如何得到，为什么将 0.69 作为模型初始化的参数。或者说我们创建叶节点...
2020机器学习GBDT 分类问题(1)
今天用的数据集，通过训练来预测用户是否会喜欢这部电影。喜欢爆米花电影年龄Favorite ColorAmeric...
2020机器学习GBDT(2)
课前甜点现在年轻人工作压力都比较大，所以难免用一些饮料和小甜品来带走压力排出体外，当然也会多少影响身体健康。但是...
决策树之 GBDT 算法 - 分类部分
上一次我们一起学习了 GBDT 算法的回归部分，今天我们继续学习该算法的分类部分。使用 GBDT 来解决分类问题和...
GBDT原理最通俗的解释
本文尽量以简洁语言说明GBDT。 1.什么是GBDT GBDT属于集成算法的一种，基分类器是回归树（分类问题也是回...
2020机器学习GBDT(1)
目标介绍什么是梯度提升(Gradient Boost),如何运用梯度提升来作为回归和分类问题。以及其背后实现算法...
Coursera台大机器学习基础课程学习笔记2 -- 机器学习的
Coursera台大机器学习基础课程学习笔记2 -- 机器学习的分类总体思路：各种类型的机器学习分类按照输出...
Kaggle竞赛：Titanic - A Data Scienc
这是一个分类问题，也是入门机器学习最常见的一个分类问题。类似的机器学习hello world级别的问题还有房...
【机器学习】分类问题
假设函数的表达式逻辑回归模型我们希望 0≤h≤1，可以设h=g(θ.T x）令g(z)=1/(1+e^(-z)...
GBDT原理分析以及XGBoost代码实践
简介 GBDT中文译为梯度提升决策树。GBDT是以分类树或者回归树作为基本分类器的提升方法，它被认为是统计学习中性...

2020机器学习GBDT 分类问题(2)

第 2 步

相关文章

2020机器学习GBDT 分类问题(2)

2020机器学习GBDT 分类问题(1)

2020机器学习GBDT(2)

决策树之 GBDT 算法 - 分类部分

GBDT原理最通俗的解释

2020机器学习GBDT(1)

Coursera台大机器学习基础课程学习笔记2 -- 机器学习的

Kaggle竞赛：Titanic - A Data Scienc

【机器学习】分类问题

GBDT原理分析以及XGBoost代码实践

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

深度学习