美文网首页
数据挖掘2

数据挖掘2

作者: 一技破万法 | 来源:发表于2020-03-27 20:01 被阅读0次

特征工程目标

  • 对于特征工程进行进一步分析,并对于数据进行处理
  • 完成对特征工程的分析,并对数据进行一些图标或者文字总结并打卡

内容介绍

常见的特征工程包括:

  1. 异常处理:
    通过箱线图(或 3-Sigma)分析删除异常值;
    BOX-COX 转换(处理有偏分布);
    长尾截断;
  2. 特征归一化/标准化:
    标准化(转换为标准正态分布);
    归一化(抓换到 [0,1] 区间);
    针对幂律分布,可以采用公式:log(\dfrac{1+x}{1+median})
  3. 数据分桶:
    等频分桶;
    等距分桶;
    Best-KS 分桶(类似利用基尼指数进行二分类);
    卡方分桶;
  4. 缺失值处理:
    不处理(针对类似 XGBoost 等树模型);
    删除(缺失数据太多); 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;
    分箱,缺失值一个箱;
  5. 特征构造:
    构造统计量特征,报告计数、求和、比例、标准差等;
    时间特征,包括相对时间和绝对时间,节假日,双休日等;
    地理信息,包括分箱,分布编码等方法;
    非线性变换,包括 log/ 平方/ 根号等;
    特征组合,特征交叉;
    仁者见仁,智者见智。
  6. 特征筛选
    过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系 数法/卡方检验法/互信息法;
    包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
    嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归;
  7. 降维
    PCA/ LDA/ ICA;
    特征选择也是一种降维。

删除异常值

求分位数quantile()函数:

  1. 将数据从小到大排列,共n个数
  2. 确定分位数位置,假设为四分位:b=(n+1)/4=4.25
  3. 计算:q=a(4)+[a(4+1)-a(4)]*0.25
    箱型图(box plot):
    显示一组数据分散情况资料的统计图。不受异常值的影响,能够准确稳定地描述出数据的离散分布情况,同时也利于数据的清洗。

箱型图识别异常值:
上限:非异常值范围内的最大值
计算:四分位距IQR=Q3-Q1,上限=Q3+1.5IQR
下限:非异常值范围内的最小值
计算:下限=Q1-1.5IQR

箱型图识别异常值

特征构造

pd.concat():数据整合
to_datetime(): 将str和unicode转化为时间格式
groupby(): 将数据进行分组,然后进行组内运算

数据分桶优点:

  1. 离散后稀疏向量内积乘法运算速度更快,计算结果方便储存,易拓展。

  2. 离散后的特征对异常值更具鲁棒性。

  3. LR属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这就相当于引入了非线性,能够提升模型的表达能力,加大拟合

  4. 离散后特征可以进行特征交叉,提升表达能力,由n+m个变量变成n*m个变量,进一步引入非线性,提升了表达能力

  5. 特征离散后模型更加稳定

相关文章

网友评论

      本文标题:数据挖掘2

      本文链接:https://www.haomeiwen.com/subject/tnpruhtx.html