特征工程的几种常见方法

作者: 谦之 | 来源:发表于2019-03-10 16:17 被阅读0次

特征工程的几种常见方法
特征工程以及特征工程的方法
scikitlearn中几种常见的特征选择的方法
常见的几种加密方法
几种常见眼型特征
贷款违约预测-Task3 特征工程
特征工程
特征工程方法整理
【特征工程】特征工程技术与方法
【特征工程】特征工程技术与方法

特征归一化

目的：将所有的数值型特征归一化到一个固定的区间

Why：以使用梯度下降算法作为优化算法的模型为例，归一化好的特征能够帮助模型更快的迭代，找到最优解

How: 线性归一化、均值归一化

缺点：对于梯度下降算法的模型比较有用，对决策树一类的模型，无需归一化

特征编码

目的：有些模型转化成数值型特征才能继续工作

Why: 对于某些字符串特征无法直接编码，需要转化成数字编码

How:

序号编码：将编码转化成多个序号比如高、中、低对应 1 2 3
独热编码：高、中、低分别对应(1,0,0)、(0,1,0)、(0,0,1)
Hash编码：
数字编码：目标字符串在给定字符串中有相同字符的个数
二进制编码：高、中、低分别对应 00、01、10
Helmert Contrast、Sum Contrast
Embedding 编码，能体现相似实体之间关系的编码方式
NaN编码：为空值编码
多项式编码：多项式核可以解决线性算法无法解决 XOR问题
范围编码：每个范围算一个值
分层范围编码，将独热编码与范围编码相组合
限定值的编码：求根号，求log等
事件编码：节假日，星期日等编码
时空编码：GPS-coordinates, cities,countries, addresses

缺点：编码种类众多，如何选择适合的编码是个问题

自然语言的特征清洗过程

组合特征

目的：如果一类特征有特别多的特征类别，容易发生过拟合，可以使用基于决策树的特征组合寻找方法，将特征判别组合成一条决策树的路径，在路径上进行二分类，得到特征的选择。

特征提取

目的：找到一个线性变换，在降低维度的情况下，使得关注的结果最优

LDA：线性判别分析

大致思路：将两部分内容映射到一个超平面上，使得同类样本之间的协方差最小，不同类样本集合的中心距离最大，可以用作降维，或者进行有监督分类

PCA：

大致思路：选择投影后使得数据方差最大的方向来投影，将原始数据转化为一组各维度线性无关的表示，与LDA最大区别为无监督，收益函数是重构后的矩阵各字段两两之间协方差为0，字段方差尽可能大

ICA：

大致思路：

特征选择

3.1 相关性分析

GBDT 特征分析，选择信息增益最大的特征
尝试组合不同时间窗口的模型组合，最后再来做融合，模型效果会有提升

网友评论

本文标题：特征工程的几种常见方法

本文链接：https://www.haomeiwen.com/subject/pwzupqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！