美文网首页
特征工程(一)——特征归一化及类型特征处理

特征工程(一)——特征归一化及类型特征处理

作者: 叫我e卵石 | 来源:发表于2021-06-15 11:21 被阅读0次

“巧妇难为无米之炊”,放到数据行业,“巧妇”是模型,“米”就是数据与特征。正如业界经典的一句话"Garbage in, garbage out",如果没有充足数据、合理的特征,再强大的模型结构也难以得到令人满意的结果。

实际工作中,特征工程是去除数据中的杂质,提炼为更合理的特征,供算法和模型使用。特征工程主要包括特征归一化、类型特征的表示、特征选择及非结构化数据的表示。本文主要介绍特征归一化及类型特征的表示。

特征归一化

为了消除特征之间量纲的影响,使数据处于同一数量级具有可比性,需要进行特征归一化。例如,分析一个顾客消费粘性与近三个月消费次数、消费金额的关系。消费次数一般最多几十次,但消费金额可能几千上万,那消费粘性就会更受消费金额的影响。想要更准确的结果,需要将特征进行归一化,使特征在同一个数量级下。最常用的归一化方法是最大最小归一化、零均值归一化。

1. 最大最小归一化是对数据进行线性变换,使结果映射到[0,1]。归一化公式为 图片

其中,x为原始数据,为数据最小值,为数据最大值。
python实现方法:

import pandas as pd
import numpy as np
df= pd.DataFrame({'num':np.random.randint(0,50,size=10),                
  'money':np.random.randint(0,3000,size=10)})
print(df)
图片
df1= (df-df.min())/(df.max()-df.min())
print(df1)
  1. 零均值归一化

    零均值z-score 归一化将数据映射到均值为0,标准差为1的分布上。归一化公式定义为:

图片

python实现方法:

df2= (df-df.mean())/df.std()
print(df2)
图片
  1. 特征归一化适用情况
    归一化的数据,梯度下降可以更快找到最优解。因此,梯度下降求解的模型需要归一化,如线性回归、逻辑回归、支持向量机、神经网络等模型。但是决策树模型并不适用,信息增益跟是否经过归一化无关。

类别特征处理

类别特征原始数据是字符串的,如性别(男、女)等。因为很多模型对各数据进行衡量时,需要依赖数值关系,因此要将类别型特征处理成数值特征。类别型编码常用处理方式有序号编码、独热编码、二进制编码。

1. 序号编码
序号编码适用于数据类别间有大小关系的,如销售金额分为高、中、低三档,可以分别用3,2,1表示。

2. 独热编码 OneHot-Encoding
如果数据类别没有大小关系,如订单来源取值为3个(淘宝、京东、拼多多),独热编码将订单来源表示为3维稀疏变量。淘宝为[1,0,0],京东为[0,1,0],拼多多为[0,0,1]。
如果类别取值过多,独热编码要注意以下问题:
(1) 用稀疏向量表示节省空间
(2) 配合特征选择降低维度

独热编码python实现:

df = pd.DataFrame({'source':['淘宝','京东','拼多多'],
'amount':[20,5,30]})
pd.get_dummies(df,prefix='source',prefix_sep='_')
image.png
  1. 二进制编码以订单来源淘宝、京东、拼多多为例,淘宝、京东、拼多多的ID分别为1、2、3,则二进制表示分别为001、010、011。

相关文章

  • 特征工程(一)——特征归一化及类型特征处理

    “巧妇难为无米之炊”,放到数据行业,“巧妇”是模型,“米”就是数据与特征。正如业界经典的一句话"Garbage i...

  • 特征工程

    问题 特征归一化 为什么要进行特征归一化? 方法? 使用场景? 离散型特征处理 为什么要处理? 方法? 特征组合 ...

  • KNN(sklearn实现、交叉验证、网格搜索)

    1.特征工程预处理 即进行归一化/标准化为什么要进行归一化/标准化?特征的单位或者大小相差较大,或者某特征的方差相...

  • 算法入门

    1、特征工程 归一化 方法:(1)Min-Max: ;(2)Z-Score: 意义:归一化让不同特征映射到相同的数...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 特征工程-特征处理小结

    特征处理包括:数据清洗和特征预处理。 一、数据清洗: 1.数据样本抽样 ①样本要具备代表性 ②样本比例要平衡以及样...

  • 特征工程:特征预处理

    虽然现在深度学习非常盛行,它可以自动进行特征工程,但是实际工作中往往没有那么多数据量支撑你使用深度学习模型,因此对...

  • 特征工程-特征预处理

    特征工程 -Data PreProcessing(数据预处理)-Feature Extraction(特征提取)-...

  • 数据挖掘实践任务2

    任务2: 特征工程(2天) 特征衍生特征挑选:分别用IV值和随机森林等进行特征选择……以及你能想到特征工程处理 结...

  • 为什么要做特征归一化

    特征归一化 在基于梯度下降的算法中,使用特征归一化方法将特征统一量纲,能够提高模型收敛速度和最终的模型精度。 特征...

网友评论

      本文标题:特征工程(一)——特征归一化及类型特征处理

      本文链接:https://www.haomeiwen.com/subject/echzeltx.html