美文网首页
《机器学习--特征工程》(入门6章)

《机器学习--特征工程》(入门6章)

作者: mantch | 来源:发表于2018-10-24 23:33 被阅读122次

6.1特征工程

  • 特征工程的目的:目的是最大限度的从原始数据中提取特征以供算法和模型使用。
  • 引用工业界的一句话:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
    特征工程.png

6.2数据预处理

6.2.1数据清洗

1.根据理论经验或者实际情况是设定一个预定的阈值,再阈值之外的即视为脏数据
2.根据均值方差,利用统计学中的3sigma原则等确定阈值。
3.根据数据的变化情况而定。

6.2.2特征处理

  • 特征的类型
    1.数值型:连续型,离散型
    2.类别类型
    3.时间类型
    4.文本类型
    5.图形类型

  • 标准化:scale(x)

  • 归一化:MinMaxScaler()

  • 零中心化

  • 最大值标准化:MaxAbsScaler() 把值缩放到[-1,1]之间

  • 规范化:normalize(X,norm='l2')

  • 二值化:特征二值化是将数值类型特征变成布尔型特征。

  • 连续特征离散化: pd.cut()

  • 分类特征编码
    1.有序特征映射:为了保证学习算法能够正确解释有序特征,我们需要将分类型字符串转为整型数值。

    有序特征映射.png

2.独立热编码
["yes","no","unknown"]可以先用LableEncoder(),编码为数字,再用OneHotEncoder表示成"[001,010,100]"


独立热编码.png

3.哑变量
["yes","no","unknown"]可以表示成二进制“[01,10,00]”

4.时间特征处理
时间特征是一个重要的特征,可视为连续型也可视为离散型。1.持续时间,2.时间间隔


时间处理.png

5.缺失值处理


缺失值处理.png
缺失值处理.png
  • 多项式特征生成:很多情况下考虑输入数据中的非线性特征来增加模型的复杂度是非常有效的。一个简单常用的方法就是使用多项式特征,它能捕捉到特征中高阶和相互作用的项。

  • 转换器定制

    转换器定制.png
  • 数据降维:PCA/LDA/LLE等

相关文章

  • 《机器学习--特征工程》(入门6章)

    6.1特征工程 特征工程的目的:目的是最大限度的从原始数据中提取特征以供算法和模型使用。 引用工业界的一句话:数据...

  • 机器学习—特征工程

    详细pdf:链接:https://pan.baidu.com/s/1pUWhb_y7kK7_fU0Gjqfe0Q ...

  • 机器学习-特征工程

    outline 概念 预处理 特征选择 降维 概念 数据集由数据对象组成,一个数据对象代表一个实体属性(attri...

  • 机器学习 - 特征工程

    大部分上传的截图都挂了,大家见谅吧,也不影响学习的 什么是特征工程 书接上文,前文我们看到鸢尾花数据集张什么样子:...

  • 机器学习 - 特征工程

    数据处理 缺失值处理行数据缺失过多,用户区分度就会降低,列数据缺失过多会导致建模存在偏差fillna:填充缺失值;...

  • 机器学习之特征工程 - 整理

    以下内容整理自机器学习之特征工程 特征工程: 定义:利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特...

  • 特征工程

    在机器学习应用中,特征工程扮演着重要的角色,可以说特征工程是机器学习应用的基础。在机器学习界流传着这样一句话:“数...

  • sklearn库-特征工程

    sklearn作为python机器学习的一个常用库,可以用来做特征工程,算法的调用,模型的评估 特征工程 特征工程...

  • 美团机器学习实践第二章-特征工程总结

    思维导图如下: 在机器学习应用中,特征工程扮演重要的角色,可以说特征工程时机器学习应用的基础。我们都知道,数据和特...

  • 面向机器学习的特征工程 一、引言

    来源:ApacheCN《面向机器学习的特征工程》翻译项目 译者:@ZhipengYe 校对:(虚位以待) 机器学习...

网友评论

      本文标题:《机器学习--特征工程》(入门6章)

      本文链接:https://www.haomeiwen.com/subject/dypttqtx.html