特征工程

作者: 潇萧之炎 | 来源:发表于2019-04-12 00:20 被阅读5次

    特征工程

    特征使用方案

    要实现业务需求目标需要哪些数据?

    • 基于业务理解,尽可能多的找出对因变量影响的所有自变量

    可用性评估

    • 获取难度
    • 覆盖率
    • 准确率

    特征获取方案

    如何获取这些特征?

    • 用户行为数据
    • 业务数据
    • 第三方数据

    如何存储?

    • 本地磁盘
    • 数据库
    • 大数据平台

    数据清洗&特征处理

    特征清洗

    • 清洗异常样本数据

    • 采样

      • 数据不均衡

        • 权重
        • 上采样
        • 下采样
        • SMOTE算法
      • 样本权重

    特征工程

    • 单个特征

      • 归一化、标准化、区间缩放法

      • 离散化/二值化

      • 哑编码/Dummy Coding

      • 缺失值处理

      • 数据变换

        • log
        • 指数
    • 多个特征

      • 增维

        • 多项式扩展
        • 核函数
        • GBDT+LR
      • 降维

        • PCA
        • LDA
      • 特征选择

        • Filter

          • 思路:自变量和因变量之间的关联
          • 相关系数
          • 卡方检验
          • 信息增益、互信息
        • Wrapper

          • 思路:通过目标函数(AUC/MSE)来决定是否加入一个变量

          • 迭代:产生特征子集,评价

            • 完全搜索

            • 启发式搜索

            • 随机搜索

              • GA
              • SA
        • Embedded

          • 思路:学习器自身自动选择特征

          • 正则化:

            • L1--Lasso
            • L2--Ridge
          • 决策树

            • 熵、信息增益
    • 衍生变量

      • 对原始数据根据业务进行加工,生成的具有商业意义的变量

    特征监控

    特征有效性分析

    • 分析特征的重要性、权重

    特征监控

    • 监控重要特征,防止特征质量下降,影响模型效果

    相关文章

      网友评论

        本文标题:特征工程

        本文链接:https://www.haomeiwen.com/subject/nfnfwqtx.html