Xgboost在做分类问题时拟合的是什么

作者: 美环花子若野 | 来源:发表于2020-04-23 18:38 被阅读0次

Xgboost在做分类问题时拟合的是什么
xgboost二元分类和多元分类原理总结
Xgboost
CS229-3分类问题
ml-正则化(regularization)
机器学习-通俗易懂推导XGBoost公式
XGBoost
（三）多项式分布&&分类回归问题分开讨论的原因
classification and representatio
过拟合及解决方案

https://www.zhihu.com/question/269929168?sort=created

作者：立言
链接：https://www.zhihu.com/question/269929168/answer/576574579
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

先说结论，拟合的是概率值。

XGBoost是GBDT的升级版，下面用GBDT来说明处理分类问题时，每一轮迭代的是什么。

XGBoost和GBDT均是基于CART回归树，对GBDT来说，当预测值为连续值时，计算预测值与真实值之间距离的平方和，均方误差(MSE)是最常用的回归损失函数，此时负梯度刚好是残差，当预测值为离散值，或者说处理分类问题时，拟合的也是‘负梯度’，只是要转一道弯。

这道弯是将预测值和真实值转换为类别的概率，迭代过程就是让预测概率不断接近真实概率。

对数损失logloss常用于评估分类器的概率输出，对数损失通过惩罚错误的分类，实现对分类器准确度(Accuracy)的量化。最小化对数损失基本等价于最大化分类器的准确度。为了计算对数损失，分类器必须提供对输入的所属的每个类别的概率值，不只是最可能的类别。

下面以一个简单二分类为例，选取损失函数为logloss：

[图片上传失败...(image-e5c779-1587638268216)]

其中：

[图片上传失败...(image-9362bd-1587638268216)]

代入后可得：

[图片上传失败...(image-822803-1587638268216)]

负梯度在下图可见：

image

</noscript>

image

截图来源：Jerome H. Friedman的《Greedy Function Approximation：A Gradient Boosting Machine》

以一个简单的数据集来说明第一步和第二步拟合的是什么。

image

</noscript>

image

Yi的取值是0,1，其中0和1亦可以表示样本取正值的真实概率，第一步所有样本未分裂，是一个树桩，让损失函数最小，初始化可得：

[图片上传失败...(image-7c1107-1587638268216)]

= [图片上传失败...(image-15b72e-1587638268216)]

=0.088

第一棵树，当m=1时，计算负梯度 [图片上传失败...(image-c6b696-1587638268216)]

= [图片上传失败...(image-ce4b70-1587638268216)]

可得：

image

</noscript>

image

接着，会以 [图片上传失败...(image-cace9f-1587638268216)]

为目标，拟合一颗树。

网友评论

本文标题：Xgboost在做分类问题时拟合的是什么

本文链接：https://www.haomeiwen.com/subject/owxzihtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Xgboost在做分类问题时拟合的是什么

相关文章