分箱法
- 原理
建模过程中会遇到很多连续型特征,对此需要进行离散化,特别情况下需要按照属性值划分子区间,在此基础之上模型会更加稳定,降低了模型过拟合的风险
- 方法
有监督分箱
卡方分箱:对于精确的离散化,相对类频率在一个区间内应当完全一致,保持区间内实例越相似,区间间实例越有区分度
具体步骤:
1.预先设定一个卡方阈值
2.初始化
根据要离散的属性对实例进行排序:每个实例属于一个区间
3.合并区间
a.计算每一对相邻区间的卡方值
b.将卡方值最小的一对区间合并
image.png
注:计算过程中需要先对实例进行排序
卡方阈值:image.png
其中k为自由度,也就是样本量-1
无监督分箱
等深分箱法:数据量条数均等划分
等宽分箱法:从最大值到最小值之间,均分为N等份,每个区间的实例数量可能不等
等深分箱会导致每个区间实例数量相差较大,等宽分箱会导致同一大小的数据分到同一个区间
网友评论