美文网首页
机器学习—特征工程

机器学习—特征工程

作者: 财务自由_lang | 来源:发表于2018-08-29 14:10 被阅读0次

    详细pdf:
    链接:https://pan.baidu.com/s/1pUWhb_y7kK7_fU0Gjqfe0Q 密码:602l
    sklearn中的特征工程:https://www.cnblogs.com/jasonfreak/p/5619260.html

    特征工程实则是数据深度清洗过程

    1.数据清洗

    a. 数据格式化(日期,数值格式化)
    b. 脏数据清洗(不合理数据)
    c. 缺失值处理方案
    方案一 : 如果缺失值的样本占总数比例行高,可直接舍弃该字段,反倒成为噪声
    方案二 : 如果缺失值的样本占总数比例适中,且该字段是离散型值,将缺失值作为新的一类
    方案三:如果缺失值的样本占总数比例适中,且该字段是连续型数值,将数值离散化处理,将缺失值作为新的一类
    方案四: 如果缺失值得样本占总数比例较少,可根据已有的值,拟合一定的数据补充上

    2.数据采样

    . 采样方式
    1.随机采样
    2.分层采样
    . 正负样本不平衡处理办法
    1.上采样(量大)
    2.下采样(量小)

    3.特征处理

    1.数值型

    image.png
    1. 类别型
    image.png
    1. 时间型
    image.png
    1. 文本型
    image.png
    image.png
    1. 统计型
    image.png
    1. 组合类型
    image.png

    4.特征选择

    过滤型
    包裹型
    嵌入型

    相关文章

      网友评论

          本文标题:机器学习—特征工程

          本文链接:https://www.haomeiwen.com/subject/kgohwftx.html