基于xgboost的二分类问题

作者: 乌龟小姐姐 | 来源:发表于2018-05-27 15:23 被阅读0次

xgboost二元分类和多元分类原理总结
基于xgboost的二分类问题
xgboost做二分类，多分类以及回归任务
Xgboost
pytorch做二分类，多分类以及回归任务
keras做二分类，多分类以及回归任务
gbdt和xgboost的区别？
机器学习算法中 GBDT 和 XGBOOST 的区别有哪些？
LightGBM Java实现在线预测
《Deep Learning with Python》第三章 3

之前做了一段时间这个，多方借鉴，找资料需要不断地挑选有用的信息，期间遇到很多问题，有些到现在也没解决。决心自己做完后简单写一下流程。下面就是自己做这个的一些基本过程，各方面话语不够专业，还望海涵。

首先是数据来源。来自天池大赛的复赛比赛中的一个数据，因为自己找到这个比赛数据时，比赛已经结束，只找到其中一个.csv文件。此数据集包含1000条数据，其中我以8：2的比例进行随机划分训练集和测试集，代码如下

数据中最后一列为标签列，即该体检患者是否患病。其他列为特征，为受检者的体检数据和基因数据。可以利用下面的代码，看数据的缺失情况（还有看缺失比例的代码的，不小心删了）

print(dataset.info())

有些数据缺失值比例特别高，可以dataset = dataset.drop('SNP54', axis=1)#删掉这一列。其余比例不太高的，可以填补缺失值。如0、-999，中位数、众位数等，如dataset = dataset .fillna(dataset .mean())，以及dataset = dataset.fillna(-999)。

加载.csv文件，代码为dataset = pd.read_csv(r'xxxxx.csv')

其次建立模型。模型参数可以用CV调节

计算正确率

分析特征重要性

ROC曲线，和AUC的值

感觉自己做的很少，还有很多很可以深挖掘的地方。大家继续加油吧

网友评论

本文标题：基于xgboost的二分类问题

本文链接：https://www.haomeiwen.com/subject/dqybjftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

基于xgboost的二分类问题

相关文章

xgboost二元分类和多元分类原理总结