六.特征工程

作者: 愿风去了 | 来源:发表于2018-10-23 13:33 被阅读7次

特征工程——找到与问题有关的任何信息，把他们转化为特征矩阵的数值。

这个过程通常被称为向量化，因为它把任意格式的数据转换成了具有良好特性的向量形式。

主要有以下示例：

（1）分类特征

一种常见的非数值类型是分类数据。

常用解决办法是独热编码（one-hot）。但这种方法有一个缺陷，如果分类特征有许多的枚举，那么数据集的维度就会很高。由于，被编码的数据中存在很多0，因此用系数矩阵表示会发非常高效！

（2）文本特征

将文本转换为一组数值。

在数据采集最简单的编码方法之一就是单词统计。不过这种方法存在一些问题，会让原始单词中一些常用词聚集太高的权重，在分类算法中这样并不合理。

解决方法之一就是采用TF-IDF（词频逆文档频率），通过单词在文档中出现的频率来衡量其权重。

（3）图像特征

对图像进行编码。

（4）衍生特征

将输入特征经过数学变换衍生出来的新特征。

例如，将一个线性回归转换为多项式回归时，并不需要通过改变模型实现，而是通过改变输入数据！这种处理方法有时候被称为基函数回归。

为数据增加多项式特征：

这种方法不改变模型，而是通过变换输入来改善模型效果的理念，也是很多强大机器学习方法的基础。

网友评论

本文标题：六.特征工程

本文链接：https://www.haomeiwen.com/subject/vvgozftx.html

六.特征工程