美文网首页
特征工程

特征工程

作者: 凌晨的月亮圆又亮 | 来源:发表于2020-06-14 19:07 被阅读0次

    做多模态融合需要特征工程知识,所以来学特征工程,最近还要学深度学习算法,统计学方法,好多东西要学!
    特征工程入门的介绍:
    机器学习中,有哪些特征选择的工程方法? - 城东的回答 - 知乎
    机器学习中,有哪些特征选择的工程方法? - SAMshare的回答 - 知乎
    【机器学习】特征选择(Feature Selection)方法汇总 - 孙佳伟的文章 - 知乎
    机器学习中的特征——特征选择的方法以及注意点

    数据降维(feature extraction)和特征选择(feature selection)的区别

    在多模态融合中,往往先经过数据预处理、模态转换等步骤后,需要用到特征选择或者数据降维来进行特征融合。对于数据降维和特征选择一直存在疑惑不明白二者的区别,所以来学习。

    二者的目标都是使得特征维数减少。但是方法不一样。数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。而特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。
    作者:Jason Gu
    链接:https://www.zhihu.com/question/29262795/answer/43742530

    申明:

    目前在看的一本书,是爱丽丝·郑 阿曼达·卡萨丽的《精通特征工程》,听说特别好,期待。以下内容为阅读《精通特征工程》所作的笔记,或为原文摘抄,或为自己理解,如有侵权,删,特此申明。
    引用:“Feature Engineering for Machine Learning by Alice Zheng and Amanda Casri(O'Reilly).Copyright 2018 Alice Zheng and Amanda Casari,978-1-491-95324-2."

    1.机器学习流程

    1.1数据-1.2任务-1.3模型

    略过

    1.4特征

    特征:原始数据的数值表示。
    特征工程:在给定数据、模型和任务的下设计出最合适的特征的过程。

    2.简单而又奇妙的数值

    2.1标量、向量和空间

    标量:单独的数值型特征称为标量。
    向量:标量的有序列表。

    2.2处理计数

    当数据无限度地增大,必须要对数据进行一定的处理,从而更好找出其中的规律或者更好地处理。

    2.2.1二值化

    (1)二值化
    (2)区间量化

    • 固定宽度分箱
    • 分位数分箱

    2.3对数变换

    对数变换可以对大数值的范围进行压缩,对小数值得范围进行扩展。x越大,log(x)增长得越慢。对数变换更适合处理具有重尾分布得正数值。
    指数变换是对数变换的推广。

    2.4特征缩放/归一化

    特征缩放会改变特征的尺度,通常对每个特征独立仅从。

    2.4.1min-max缩放

    \tilde x ={x-min(x)\over max(x)-min(x)}

    2.4.2特征标准化/方差缩放

    \tilde x={x-mean(x)\over sqrt(var(x))}
    缩放后的特征均值为0,方差为1。
    以上两种缩放的实施对象如果是稀疏数据,那么一定要小心,因为稀疏数据以0居多,经过min-max缩放/标准化以后,就会使得所有的数据特征平移一定的数据量,此时的稀疏数据将不再稀疏,计算量变得很大。

    2.4.3l^2归一化

    这种归一化技术是将初始特征值除以一个称为l^2范数的量,l^2范数又称为欧几里得范数,定义如下:
    \tilde x={x\over||x||_2}
    ||x||_2 =\sqrt{x_1^2+x_2^2+···+x_m^2}
    当一组输入特征的尺度相差很大时,就需要进行特征缩放。

    2.5交互特征

    两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比。

    2.6特征选择

    目的:精简掉无用的特征,以降低最终模型的复杂性,最终目的是得到一个简约模型,同时提高计算速度。
    (1)过滤filter
    (2)打包方法Wrapper
    (3)嵌入式方法Embedded
    嵌入式方式将特则会给你选择作为模型训练过程的一部分。它们不如大爆发强大,但成本没有打包法高,与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。
    关于特征选择的部分是我这次重点要学习的内容,但是看了后面部分都是关于信息检索课程相关的知识了,作者也说了特征选择的更细致内容超出本书范围,因此,这本书的学习目前先放下,先去做更要紧的事。

    相关文章

      网友评论

          本文标题:特征工程

          本文链接:https://www.haomeiwen.com/subject/uxdfxktx.html