美文网首页科研信息学
机器学习(十六)特征工程之数据分箱

机器学习(十六)特征工程之数据分箱

作者: 致Great | 来源:发表于2019-01-19 13:45 被阅读62次

    1 分箱简介

    数据分箱(也称为离散分箱或分段)是一种数据预处理技术,用于减少次要观察误差的影响,是一种将多个连续值分组为较少数量的“分箱”的方法。

    例如,例如我们有一组关于人年龄的数据,如下图所示:


    初始数据

    现在我们希望将他们的年龄分组到更少的间隔中,可以通过设置一些条件来实现:


    分箱后的数据

    分箱的数据不一定必须是数字,它们可以是任何类型的值,如“狗”,“猫”,“仓鼠”等。 分箱也用于图像处理,通过将相邻像素组合成单个像素,它可用于减少数据量。


    分箱

    2 分箱的重要性及其优势

    一般在建立分类模型时,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。比如在建立申请评分卡模型时用logsitic作为基模型就需要对连续变量进行离散化,离散化通常采用分箱法。分箱的有以下重要性及其优势:

    1. 离散特征的增加和减少都很容易,易于模型的快速迭代;
    2. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
    3. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。4. 如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
    4. 逻辑回归属于广义线性模型,表达能力受限;单变量离散化为N个后,每个变量有单6. 独的权重,相当于为模型引入了非线性,能够提升模型表达能力,加大拟合;
    5. 离散化后可以进行特征交叉,由M+N个变量变为M*N个变量,进一步引入非线性,提升表达能力;
    6. 特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人。当然处于区间相邻处的样本会刚好相反,所以怎么划分区间是门学问;
    7. 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
    8. 可以将缺失作为独立的一类带入模型。
    9. 将所有变量变换到相似的尺度上。

    3 分箱方法

    有监督分箱

    卡方分箱

    自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。

    基本思想:
    对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开。而低卡方值表明它们具有相似的类分布。

    这里需要注意初始化时需要对实例进行排序,在排序的基础上进行合并。

    卡方阈值的确定:
    根据显著性水平和自由度得到卡方值自由度比类别数量小1。例如:有3类,自由度为2,则90%置信度(10%显著性水平)下,卡方的值为4.6。

    阈值的意义:
    类别和属性独立时,有90%的可能性,计算得到的卡方值会小于4.6。 大于阈值4.6的卡方值就说明属性和类不是相互独立的,不能合并。如果阈值选的大,区间合并就会进行很多次,离散后的区间数量少、区间大。

    注:
    1、ChiMerge算法推荐使用0.90、0.95、0.99置信度,最大区间数取10到15之间.
    2、也可以不考虑卡方阈值,此时可以考虑最小区间数或者最大区间数。指定区间数量的上限和下限,最多几个区间,最少几个区间。
    3、对于类别型变量,需要分箱时需要按照某种方式进行排序。

    最小熵法分箱

    无监督分箱

    • 等距分箱
      从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W 。这里只考虑边界,每个等份里面的实例数量可能不等。
    def create_bins(lower_bound, width, quantity):
        """
        创建等距分箱
        """
    
        bins = []
        for low in range(lower_bound,
                         lower_bound + quantity * width + 1, width):
            bins.append((low, low + width))
        return bins
    bins = create_bins(lower_bound=50,
                       width=4,
                       quantity=10)
    print(bins)
    

    输出:

    [(50, 54), (54, 58), (58, 62), (62, 66), (66, 70), (70, 74), (74, 78), (78, 82), (82, 86), (86, 90), (90, 94)]
    

    给出一组数据,然后查找它们所属的分箱

    def find_bin(value, bins):
        """
        查找分箱
        """
        for i in range(0, len(bins)):
            if bins[i][0] <= value < bins[i][1]:
                return i
        return -1
    
    from collections import Counter
    weights_of_persons = [73.4, 69.3, 64.9, 75.6, 74.9, 80.3,
                          78.6, 84.1, 88.9, 90.3, 83.4, 69.3,
                          52.4, 58.3, 67.4, 74.0, 89.3, 63.4]
    binned_weights = []
    for value in weights_of_persons:
        bin_index = find_bin(value, bins)
        print(value, bin_index, bins[bin_index])
        binned_weights.append(bin_index)
    
    frequencies = Counter(binned_weights)
    print(frequencies)
    
    

    输出:

    73.4 5 (70, 74)
    69.3 4 (66, 70)
    64.9 3 (62, 66)
    75.6 6 (74, 78)
    74.9 6 (74, 78)
    80.3 7 (78, 82)
    78.6 7 (78, 82)
    84.1 8 (82, 86)
    88.9 9 (86, 90)
    90.3 10 (90, 94)
    83.4 8 (82, 86)
    69.3 4 (66, 70)
    52.4 0 (50, 54)
    58.3 2 (58, 62)
    67.4 4 (66, 70)
    74.0 6 (74, 78)
    89.3 9 (86, 90)
    63.4 3 (62, 66)
    
    Counter({4: 3, 6: 3, 3: 2, 7: 2, 8: 2, 9: 2, 5: 1, 10: 1, 0: 1, 2: 1})
    
    • 等频分箱
       区间的边界值要经过选择,使得每个区间包含大致相等的实例数量。比如说 N=10 ,每个区间应该包含大约10%的实例。

    以上两种算法的弊端:比如,等宽区间划分,划分为5区间,最高工资为50000,则所有工资低于10000的人都被划分到同一区间。等频区间可能正好相反,所有工资高于50000的人都会被划分到50000这一区间中。这两种算法都忽略了实例所属的类型,落在正确区间里的偶然性很大。

    reference:https://blog.csdn.net/Pylady/article/details/78882220

    4 pandas实现数据分箱

    首先创建一个长度为20的,范围在30-100之间的学生分数的数组

    import numpy as np
    import pandas as pd
    from pandas import Series, DataFrame
    
    score_list = np.random.randint(30, 100, size=20)
    print(score_list)
    
    [52 54 36 82 91 62 78 75 65 96 97 62 62 49 94 37 61 30 88 32]
    

    然后我们再设置分箱:

    bins=[0,59,70,80,100]
    

    这就表示数据有0-59,59-70,70-80,80-100这几个等级。
    下面把分箱和分数利用cut方法结合到一起。

    score_cat = pd.cut(score_list, bins)
    print(pd.value_counts(score_cat))
    
    
    (0, 59]      8
    (80, 100]    7
    (59, 70]     3
    (70, 80]     2
    

    5 参考资料

    相关文章

      网友评论

        本文标题:机器学习(十六)特征工程之数据分箱

        本文链接:https://www.haomeiwen.com/subject/yoandqtx.html