做多模态融合需要特征工程知识,所以来学特征工程,最近还要学深度学习算法,统计学方法,好多东西要学!
特征工程入门的介绍:
机器学习中,有哪些特征选择的工程方法? - 城东的回答 - 知乎
机器学习中,有哪些特征选择的工程方法? - SAMshare的回答 - 知乎
【机器学习】特征选择(Feature Selection)方法汇总 - 孙佳伟的文章 - 知乎
机器学习中的特征——特征选择的方法以及注意点
数据降维(feature extraction)和特征选择(feature selection)的区别
在多模态融合中,往往先经过数据预处理、模态转换等步骤后,需要用到特征选择或者数据降维来进行特征融合。对于数据降维和特征选择一直存在疑惑不明白二者的区别,所以来学习。
二者的目标都是使得特征维数减少。但是方法不一样。数据降维,一般说的是维数约简(Dimensionality reduction)。它的思路是:将原始高维特征空间里的点向一个低维空间投影,新的空间维度低于原特征空间,所以维数减少了。在这个过程中,特征发生了根本性的变化,原始的特征消失了(虽然新的特征也保持了原特征的一些性质)。而特征选择,是从 n 个特征中选择 d (d<n) 个出来,而其它的 n-d 个特征舍弃。所以,新的特征只是原来特征的一个子集。没有被舍弃的 d 个特征没有发生任何变化。这是二者的主要区别。
作者:Jason Gu
链接:https://www.zhihu.com/question/29262795/answer/43742530
申明:
目前在看的一本书,是爱丽丝·郑 阿曼达·卡萨丽的《精通特征工程》,听说特别好,期待。以下内容为阅读《精通特征工程》所作的笔记,或为原文摘抄,或为自己理解,如有侵权,删,特此申明。
引用:“Feature Engineering for Machine Learning by Alice Zheng and Amanda Casri(O'Reilly).Copyright 2018 Alice Zheng and Amanda Casari,978-1-491-95324-2."
1.机器学习流程
1.1数据-1.2任务-1.3模型
略过
1.4特征
特征:原始数据的数值表示。
特征工程:在给定数据、模型和任务的下设计出最合适的特征的过程。
2.简单而又奇妙的数值
2.1标量、向量和空间
标量:单独的数值型特征称为标量。
向量:标量的有序列表。
2.2处理计数
当数据无限度地增大,必须要对数据进行一定的处理,从而更好找出其中的规律或者更好地处理。
2.2.1二值化
(1)二值化
(2)区间量化
- 固定宽度分箱
- 分位数分箱
2.3对数变换
对数变换可以对大数值的范围进行压缩,对小数值得范围进行扩展。x越大,log(x)增长得越慢。对数变换更适合处理具有重尾分布得正数值。
指数变换是对数变换的推广。
2.4特征缩放/归一化
特征缩放会改变特征的尺度,通常对每个特征独立仅从。
2.4.1min-max缩放
2.4.2特征标准化/方差缩放
缩放后的特征均值为0,方差为1。
以上两种缩放的实施对象如果是稀疏数据,那么一定要小心,因为稀疏数据以0居多,经过min-max缩放/标准化以后,就会使得所有的数据特征平移一定的数据量,此时的稀疏数据将不再稀疏,计算量变得很大。
2.4.3归一化
这种归一化技术是将初始特征值除以一个称为范数的量,范数又称为欧几里得范数,定义如下:
当一组输入特征的尺度相差很大时,就需要进行特征缩放。
2.5交互特征
两个特征的乘积可以组成一对简单的交互特征,这种相乘关系可以用逻辑操作符AND来类比。
2.6特征选择
目的:精简掉无用的特征,以降低最终模型的复杂性,最终目的是得到一个简约模型,同时提高计算速度。
(1)过滤filter
(2)打包方法Wrapper
(3)嵌入式方法Embedded
嵌入式方式将特则会给你选择作为模型训练过程的一部分。它们不如大爆发强大,但成本没有打包法高,与过滤技术相比,嵌入式方法可以选择出特别适合某种模型的特征。
关于特征选择的部分是我这次重点要学习的内容,但是看了后面部分都是关于信息检索课程相关的知识了,作者也说了特征选择的更细致内容超出本书范围,因此,这本书的学习目前先放下,先去做更要紧的事。
网友评论