task3 数据的特征工程

作者: 欧飞红 | 来源:发表于2020-03-28 21:47 被阅读0次

贷款违约预测-Task3 特征工程
2020-09-21
task3 数据的特征工程
Task3特征工程
零基础入门数据挖掘-Task3 特征工程
机器学习--回归问题、决策树、随机森林、GBDT、 XGBoos
深度学习中的特征工程
使用sklearn做单机特征工程
特征工程
数据挖掘2

针对本次任务中遇到的问题，进行一些资料的补充。

针对xgb等模型的理解

lightgbm,xgboost,gbdt的区别与联系

LR和树模型基础概念

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

个人的理解是，这些模型大致分为两类，一类是线性模型（逻辑回归也算广义的线性），一类是树模型。这两类都可以处理回归问题，但是由于线性模型对数据更加敏感，而树模型具有更强的鲁棒性，所以比赛中常见的都是树模型。

像lgb，xgb，catboost都是树模型，它们都是由gbdt发展而来（不知道能不能这么理解）。

另外，需要注意特征筛选环节，lgb等都是嵌入式的，即模型自己就可以筛选；而lr需要通过正则L1，L2等方式筛选。总之，现在不用再蠢到自己动手筛特征了。当然，对特征的深入理解，是有助于优化模型的。

pandas一些小操作

pandas聚合和分组运算之groupby

python pandas中 inplace 参数理解

Pandas DataFrame连接表，Merge, Join, Concat的对比

pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置

都是实践中会遇到的，值得收藏哦~

说回特征处理

首先，针对task3里的分桶，个人觉得还是有必要补充一些知识点。

如何对数值型特征进行分桶

另外，实操中发现power的分桶会出现缺失值，这点需要想办法解决。

其次，针对one hot问题，也有一些额外的知识点可以补充。

着重看part3.1

这里提到了one hot的一些隐患

最后，针对聚合特征构造，除了task里的brand统计量，还有其它手段。

特征工程系列：聚合特征构造以及转换特征构造

网友评论

本文标题：task3 数据的特征工程

本文链接：https://www.haomeiwen.com/subject/gmheuhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

task3 数据的特征工程

针对xgb等模型的理解

pandas一些小操作

说回特征处理

相关文章

贷款违约预测-Task3 特征工程

2020-09-21