美文网首页
特征工程—分箱

特征工程—分箱

作者: Carolina_Wang | 来源:发表于2020-04-01 11:26 被阅读0次

分箱法

  • 原理

建模过程中会遇到很多连续型特征,对此需要进行离散化,特别情况下需要按照属性值划分子区间,在此基础之上模型会更加稳定,降低了模型过拟合的风险

  • 方法

有监督分箱

卡方分箱:对于精确的离散化,相对类频率在一个区间内应当完全一致,保持区间内实例越相似,区间间实例越有区分度
具体步骤:
1.预先设定一个卡方阈值
2.初始化
根据要离散的属性对实例进行排序:每个实例属于一个区间
3.合并区间
a.计算每一对相邻区间的卡方值
b.将卡方值最小的一对区间合并

image.png
注:计算过程中需要先对实例进行排序
卡方阈值: image.png
其中k为自由度,也就是样本量-1

无监督分箱

等深分箱法:数据量条数均等划分
等宽分箱法:从最大值到最小值之间,均分为N等份,每个区间的实例数量可能不等
等深分箱会导致每个区间实例数量相差较大,等宽分箱会导致同一大小的数据分到同一个区间

相关文章

  • 特征工程—分箱

    分箱法 原理 建模过程中会遇到很多连续型特征,对此需要进行离散化,特别情况下需要按照属性值划分子区间,在此基础之上...

  • 机器学习第二课_数据预处理

    数值型特征分箱(数据离散化) 2.1 无监督分箱法 等距分箱 import pandas as pddf = pd...

  • 04 特征工程

    特征工程是所有机器学习的最重要的一步。如果要对特征工程梳理最基本的操作,考虑以下四步:1.编码2.分箱3.自动化特...

  • 特征工程-数据预处理之数据分箱

    我们在进行建模的过程种,经常会遇到类似于年龄、收入这样连续的特征,可以把这些特征进行一定的处理,从而衍生出更多的特...

  • 机器学习(十六)特征工程之数据分箱

    1 分箱简介 数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值...

  • 信贷风控的基础:评分卡,iv,woe,vif

    流程 数据分箱 Bining 就是数据分组,数据预处理技术,如果是学图像算法的工程师,图像的分割就是一种数据分箱技...

  • 数据预处理之分箱操作

    分箱离散化 一种无监督离散化方法 分为两类,1 等距离分箱 2 等频度分箱 等距离分箱即等宽度分箱,设有K个空间,...

  • 2018-04-03-机器学习相关

    No.1 特征工程 (1)使用sklearn做单机特征工程 - jasonfreak - 博客园 (2)特征工程实...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 快速分箱方法

    python 分箱的一种方法 2018.08.02 R语言中有smbining可以进行最优分箱,python中分箱...

网友评论

      本文标题:特征工程—分箱

      本文链接:https://www.haomeiwen.com/subject/soowuhtx.html