特征归一化方法

作者: Chuck_Wu | 来源:发表于2018-11-14 21:56 被阅读37次

    线性归一方法

    该方法将输入数据进行等比缩放,将其转换到 [0,1] 的范围,公式为:

    Xnorm = (X - Xmin) / (Xmax - Xmin)

    • 优点:消除原始数据的纲量和数量级影响
    • 缺点:依赖最大值与最小值两个极值,而与其他值无关,使得在改变各变量权重时过分依赖极值。

    零均值归一方法

    该方法将原始数据集归一化为均值为0,方差为1的数据集,公式为:

    Xnorm = ( x - u ) / σ

    • 优点:去量纲化
    • 缺点:该方法要求原始数据集满足近似高斯分布,否则归一化效果不好。

    使用sklearn.preprocessing.PolynomialFeatures进行特征构造

    该方法用多项式的方法来进行,如有a,b两个特征,那么二次多项式为(1,a,b,a2,ab,b2)。

    PloynomialFeatures有三个参数:

    • degree:控制多项式的度
    • interaction_only:默认为False,如为Ture,则不会有自己与自己结合的特征项。
    • include_bias:默认为Ture,如为false,则不会有最前面的1。
    X = np.arange(6).reshape(3, 2)
    

    array([[0, 1],
    [2, 3],
    [4, 5]])

    poly = PolynomialFeatures()
    poly.fit_transform(X)
    

    array([[ 1., 0., 1., 0., 0., 1.],
    [ 1., 2., 3., 4., 6., 9.],
    [ 1., 4., 5., 16., 20., 25.]])

    poly = PolynomialFeatures(interaction:ture)
    poly.fit_transform(X)
    

    array([[ 1., 0., 1., 0.],
    [ 1., 2., 3., 6.],
    [ 1., 4., 5., 20.]])

    相关文章

      网友评论

        本文标题:特征归一化方法

        本文链接:https://www.haomeiwen.com/subject/yfrsfqtx.html