美文网首页
特征工程

特征工程

作者: 凌晨的月亮圆又亮 | 来源:发表于2020-06-14 19:07 被阅读0次

做多模态融合需要特征工程知识,所以来学特征工程,最近还要学深度学习算法,统计学方法,好多东西要学!
特征工程入门的介绍:
机器学习中,有哪些特征选择的工程方法? - 城东的回答 - 知乎
机器学习中,有哪些特征选择的工程方法? - SAMshare的回答 - 知乎
【机器学习】特征选择(Feature Selection)方法汇总 - 孙佳伟的文章 - 知乎
机器学习中的特征——特征选择的方法以及注意点

数据降维(feature extraction)和特征选择(feature selection)的区别

在多模态融合中,往往先经过数据预处理、模态转换等步骤后,需要用到特征选择或者数据降维来进行特征融合。对于数据降维和特征选择一直存在疑惑不明白二者的区别,所以来学习。

二者的目标都是使得特征维数减少。但是方法不一样。数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。而特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。
作者:Jason Gu
链接:https://www.zhihu.com/question/29262795/answer/43742530

申明:

目前在看的一本书,是爱丽丝·郑 阿曼达·卡萨丽的《精通特征工程》,听说特别好,期待。以下内容为阅读《精通特征工程》所作的笔记,或为原文摘抄,或为自己理解,如有侵权,删,特此申明。
引用:“Feature Engineering for Machine Learning by Alice Zheng and Amanda Casri(O'Reilly).Copyright 2018 Alice Zheng and Amanda Casari,978-1-491-95324-2."

1.机器学习流程

1.1数据-1.2任务-1.3模型

略过

1.4特征

特征:原始数据的数值表示。
特征工程:在给定数据、模型和任务的下设计出最合适的特征的过程。

2.简单而又奇妙的数值

2.1标量、向量和空间

标量:单独的数值型特征称为标量。
向量:标量的有序列表。

2.2处理计数

当数据无限度地增大,必须要对数据进行一定的处理,从而更好找出其中的规律或者更好地处理。

2.2.1二值化

(1)二值化
(2)区间量化

  • 固定宽度分箱
  • 分位数分箱

2.3对数变换

对数变换可以对大数值的范围进行压缩,对小数值得范围进行扩展。x越大,log(x)增长得越慢。对数变换更适合处理具有重尾分布得正数值。
指数变换是对数变换的推广。

2.4特征缩放/归一化

特征缩放会改变特征的尺度,通常对每个特征独立仅从。

2.4.1min-max缩放

\tilde x ={x-min(x)\over max(x)-min(x)}

2.4.2特征标准化/方差缩放

\tilde x={x-mean(x)\over sqrt(var(x))}
缩放后的特征均值为0,方差为1。
以上两种缩放的实施对象如果是稀疏数据,那么一定要小心,因为稀疏数据以0居多,经过min-max缩放/标准化以后,就会使得所有的数据特征平移一定的数据量,此时的稀疏数据将不再稀疏,计算量变得很大。

2.4.3l^2归一化

这种归一化技术是将初始特征值除以一个称为l^2范数的量,l^2范数又称为欧几里得范数,定义如下:
\tilde x={x\over||x||_2}
||x||_2 =\sqrt{x_1^2+x_2^2+···+x_m^2}
当一组输入特征的尺度相差很大时,就需要进行特征缩放。

2.5交互特征

两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比。

2.6特征选择

目的:精简掉无用的特征,以降低最终模型的复杂性,最终目的是得到一个简约模型,同时提高计算速度。
(1)过滤filter
(2)打包方法Wrapper
(3)嵌入式方法Embedded
嵌入式方式将特则会给你选择作为模型训练过程的一部分。它们不如大爆发强大,但成本没有打包法高,与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。
关于特征选择的部分是我这次重点要学习的内容,但是看了后面部分都是关于信息检索课程相关的知识了,作者也说了特征选择的更细致内容超出本书范围,因此,这本书的学习目前先放下,先去做更要紧的事。

相关文章

  • 2018-04-03-机器学习相关

    No.1 特征工程 (1)使用sklearn做单机特征工程 - jasonfreak - 博客园 (2)特征工程实...

  • 机器学习之特征工程

    目录大纲 特征工程是什么? 特征工程的重要性 特征工程子问题:1.特征处理2.Feature Selection(...

  • 使用sklearn做单机特征工程

    使用sklearn做单机特征工程 | 转载 使用sklearn做单机特征工程 目录1 特征工程是什么?2 数据预处...

  • 特征工程

    http://www.cnblogs.com/jasonfreak/p/5448385.html

  • 特征工程

    特征工程  我们做比赛的初衷是想在比赛中锻炼用深度学习模型解决实际问题的能力。所以我们做特征工程时更多的考虑了深度...

  • 特征工程

    目录 1 特征工程是什么?2 数据预处理2.1 无量纲化2.1.1 标准化2.1.2 区间缩放法2.1.3 标准化...

  • 特征工程

    数据和特征的质量决定了机器学习的上限,而模型和算法只是不断逼近这个上限而已 数据清洗 数据样本抽样 异常值(空值处...

  • 特征工程

  • 特征工程

    首先,给一张特征工程的思维导图: 【如果要浏览图片,建议将其下载到本地,使用图片浏览软件查看】 关于特征工程(Fe...

  • 特征工程

    Feature Enginnering 应用机器学习的本质是特征工程。通过特征工程,我们能持续地提升效果,而模型算...

网友评论

      本文标题:特征工程

      本文链接:https://www.haomeiwen.com/subject/uxdfxktx.html