美文网首页
数据挖掘2

数据挖掘2

作者: 一技破万法 | 来源:发表于2020-03-27 20:01 被阅读0次

    特征工程目标

    • 对于特征工程进行进一步分析,并对于数据进行处理
    • 完成对特征工程的分析,并对数据进行一些图标或者文字总结并打卡

    内容介绍

    常见的特征工程包括:

    1. 异常处理:
      通过箱线图(或 3-Sigma)分析删除异常值;
      BOX-COX 转换(处理有偏分布);
      长尾截断;
    2. 特征归一化/标准化:
      标准化(转换为标准正态分布);
      归一化(抓换到 [0,1] 区间);
      针对幂律分布,可以采用公式:log(\dfrac{1+x}{1+median})
    3. 数据分桶:
      等频分桶;
      等距分桶;
      Best-KS 分桶(类似利用基尼指数进行二分类);
      卡方分桶;
    4. 缺失值处理:
      不处理(针对类似 XGBoost 等树模型);
      删除(缺失数据太多); 插值补全,包括均值/中位数/众数/建模预测/多重插补/压缩感知补全/矩阵补全等;
      分箱,缺失值一个箱;
    5. 特征构造:
      构造统计量特征,报告计数、求和、比例、标准差等;
      时间特征,包括相对时间和绝对时间,节假日,双休日等;
      地理信息,包括分箱,分布编码等方法;
      非线性变换,包括 log/ 平方/ 根号等;
      特征组合,特征交叉;
      仁者见仁,智者见智。
    6. 特征筛选
      过滤式(filter):先对数据进行特征选择,然后在训练学习器,常见的方法有 Relief/方差选择发/相关系 数法/卡方检验法/互信息法;
      包裹式(wrapper):直接把最终将要使用的学习器的性能作为特征子集的评价准则,常见方法有 LVM(Las Vegas Wrapper) ;
      嵌入式(embedding):结合过滤式和包裹式,学习器训练过程中自动进行了特征选择,常见的有 lasso 回归;
    7. 降维
      PCA/ LDA/ ICA;
      特征选择也是一种降维。

    删除异常值

    求分位数quantile()函数:

    1. 将数据从小到大排列,共n个数
    2. 确定分位数位置,假设为四分位:b=(n+1)/4=4.25
    3. 计算:q=a(4)+[a(4+1)-a(4)]*0.25
      箱型图(box plot):
      显示一组数据分散情况资料的统计图。不受异常值的影响,能够准确稳定地描述出数据的离散分布情况,同时也利于数据的清洗。

    箱型图识别异常值:
    上限:非异常值范围内的最大值
    计算:四分位距IQR=Q3-Q1,上限=Q3+1.5IQR
    下限:非异常值范围内的最小值
    计算:下限=Q1-1.5IQR

    箱型图识别异常值

    特征构造

    pd.concat():数据整合
    to_datetime(): 将str和unicode转化为时间格式
    groupby(): 将数据进行分组,然后进行组内运算

    数据分桶优点:

    1. 离散后稀疏向量内积乘法运算速度更快,计算结果方便储存,易拓展。

    2. 离散后的特征对异常值更具鲁棒性。

    3. LR属于广义线性模型,表达能力有限,经过离散化后,每个变量有单独的权重,这就相当于引入了非线性,能够提升模型的表达能力,加大拟合

    4. 离散后特征可以进行特征交叉,提升表达能力,由n+m个变量变成n*m个变量,进一步引入非线性,提升了表达能力

    5. 特征离散后模型更加稳定

    相关文章

      网友评论

          本文标题:数据挖掘2

          本文链接:https://www.haomeiwen.com/subject/tnpruhtx.html