美文网首页
task3 数据的特征工程

task3 数据的特征工程

作者: 欧飞红 | 来源:发表于2020-03-28 21:47 被阅读0次

针对本次任务中遇到的问题,进行一些资料的补充。

针对xgb等模型的理解

lightgbm,xgboost,gbdt的区别与联系

LR和树模型基础概念

决策树、逻辑回归、线性回归使用时注意事项以及模型过拟合策略

个人的理解是,这些模型大致分为两类,一类是线性模型(逻辑回归也算广义的线性),一类是树模型。这两类都可以处理回归问题,但是由于线性模型对数据更加敏感,而树模型具有更强的鲁棒性,所以比赛中常见的都是树模型。

像lgb,xgb,catboost都是树模型,它们都是由gbdt发展而来(不知道能不能这么理解)。

另外,需要注意特征筛选环节,lgb等都是嵌入式的,即模型自己就可以筛选;而lr需要通过正则L1,L2等方式筛选。总之,现在不用再蠢到自己动手筛特征了。当然,对特征的深入理解,是有助于优化模型的。

pandas一些小操作

pandas聚合和分组运算之groupby

python pandas中 inplace 参数理解

Pandas DataFrame连接表,Merge, Join, Concat的对比

pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置

都是实践中会遇到的,值得收藏哦~

说回特征处理

首先,针对task3里的分桶,个人觉得还是有必要补充一些知识点。

如何对数值型特征进行分桶

另外,实操中发现power的分桶会出现缺失值,这点需要想办法解决。

其次,针对one hot问题,也有一些额外的知识点可以补充。

着重看part3.1

这里提到了one hot的一些隐患

最后,针对聚合特征构造,除了task里的brand统计量,还有其它手段。

特征工程系列:聚合特征构造以及转换特征构造

相关文章

  • 贷款违约预测-Task3 特征工程

    Task3 特征工程 此部分为零基础入门金融风控的 Task3 特征工程部分,带你来了解各种特征工程以及分析方法,...

  • 2020-09-21

    金融风控练习赛——Task3 特征工程 1. 数据预处理 1.1 数据清洗 数据清洗主要用于对原始数据中缺失值,异...

  • task3 数据的特征工程

    针对本次任务中遇到的问题,进行一些资料的补充。 针对xgb等模型的理解 lightgbm,xgboost,gbdt...

  • Task3特征工程

    day3:今天进行的是特征工程部分,也就是对一些特征进行处理,构造适合各种模型的数据。 特征工程的目标 对于特征进...

  • 零基础入门数据挖掘-Task3 特征工程

    常见的特征工程包括: 异常处理: 1.通过箱线图(或 3-Sigma)分析删除异常值;2.BOX-COX 转换(处...

  • 机器学习--回归问题、决策树、随机森林、GBDT、 XGBoos

    零、特征工程(数据-特征-模型) 1、数据特征处理 * 数据选择 /清洗 /采样 * 数据型 / 类别型 /日期型...

  • 深度学习中的特征工程

    什么是特征工程?顾名思义,特征工程是一种工程活动,目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据...

  • 使用sklearn做单机特征工程

    使用sklearn做单机特征工程 | 转载 使用sklearn做单机特征工程 目录1 特征工程是什么?2 数据预处...

  • 特征工程

    1. 介绍 特征工程是对原始数据进行一系列工程处理,将其提炼为特征,作为输入。是一个表示和展示数据的过程,特征工程...

  • 数据挖掘2

    特征工程目标 对于特征工程进行进一步分析,并对于数据进行处理 完成对特征工程的分析,并对数据进行一些图标或者文字总...

网友评论

      本文标题:task3 数据的特征工程

      本文链接:https://www.haomeiwen.com/subject/gmheuhtx.html